Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Retro-li: Small-Scale Retrieval Augmented Generation Supporting Noisy Similarity Searches and Domain Shift Generalization

Created by
  • Haebom

저자

Gentiana Rashiti, Geethan Karunaratne, Mrinmaya Sachan, Abu Sebastian, Abbas Rahimi

개요

Retro와 같은 검색 증강 생성(RAG) 시스템은 수조 개의 항목을 포함하는 비모수 메모리 데이터베이스에서 검색하여 언어 모델링 기능을 향상시키고 독성 및 환각을 줄이는 것으로 나타났습니다. 본 논문에서는 소규모 데이터베이스를 사용하여 검색이 도움이 될 수 있음을 보여주는 Retro-li를 소개하지만, 더 작고 드문 비모수 메모리에서 검색할 때 더 정확하고 더 나은 이웃을 요구합니다. 이는 적절한 의미적 유사성 검색을 사용하여 충족될 수 있습니다. 또한 처음으로 비모수 메모리에 정규화를 추가하는 것을 제안합니다. 이는 추론 중 이웃 검색 작업이 노이즈가 있을 때 퍼플렉서티를 크게 줄이고 도메인 이동이 발생할 때 일반화를 향상시킵니다. 또한 Retro-li의 비모수 메모리는 아날로그 인메모리 컴퓨팅 하드웨어에 구현될 수 있으며, O(1) 검색 시간을 나타내는 동시에 이웃 검색 시 노이즈를 발생시키지만 성능 손실은 최소(<1%)입니다. 코드는 https://github.com/IBM/Retrieval-Enhanced-Transformer-Little 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
소규모 데이터베이스를 사용한 RAG 시스템의 효율성을 보여줌.
의미적 유사성 검색의 중요성 강조.
비모수 메모리에 대한 정규화 기법 제시 및 그 효과 입증.
아날로그 인메모리 컴퓨팅 하드웨어 구현 가능성 제시.
한계점:
소규모 데이터베이스 사용 시 정확한 이웃 검색의 어려움.
아날로그 인메모리 컴퓨팅 하드웨어 구현 시 발생할 수 있는 노이즈 문제.
실제 대규모 데이터셋에 대한 성능 평가 부족.
👍