Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GainRAG: Preference Alignment in Retrieval-Augmented Generation through Gain Signal Synthesis

Created by
  • Haebom

저자

Yi Jiang, Sendong Zhao, Jianbo Li, Haochun Wang, Bing Qin

개요

Retrieval-Augmented Generation (RAG) 프레임워크는 검색 모듈을 사용하여 검색된 정보를 대규모 언어 모델(LLM)의 입력 컨텍스트에 동적으로 주입하며 다양한 NLP 작업에서 상당한 성공을 거두었습니다. 하지만 기존 연구는 RAG 프레임워크에서 검색기와 LLM 간의 선호도 차이가 시스템 성능 향상을 제한한다는 점을 지적합니다. 매우 관련된 일부 구절은 복잡하거나 모순된 정보를 포함하여 LLM 추론을 방해할 수 있는 반면, 간접적으로 관련되거나 부정확한 내용이라도 시사 정보나 논리적 단서를 제공하여 LLM이 더 정확한 답변을 생성하는 데 도움이 될 수 있습니다. 이를 해결하기 위해 본 논문에서는 입력 구절이 정확한 출력에 얼마나 잘 기여하는지를 측정하는 새로운 지표인 "gain"을 정의하여 검색기와 LLM의 선호도를 일치시키는 새로운 접근 방식인 GainRAG를 제안합니다. 구체적으로, 제한된 데이터만을 사용하여 이러한 gain 신호를 추정하고 검색기와 LLM의 선호도를 일치시키는 중간웨어를 훈련하는 방법을 제안합니다. 또한 성능 저하를 완화하기 위해 의사 구절 전략을 도입합니다. 6개의 데이터셋에 대한 실험 결과는 GainRAG의 효과를 검증합니다.

시사점, 한계점

시사점: RAG 프레임워크의 검색기와 LLM 간의 선호도 차이 문제를 해결하는 새로운 방법인 GainRAG 제시. 제한된 데이터만으로도 검색기와 LLM의 선호도를 효과적으로 정렬. 의사 구절 전략을 통해 성능 저하 완화. 다양한 데이터셋에서 효과 검증.
한계점: 제안된 "gain" 지표 및 GainRAG의 일반화 성능에 대한 추가 연구 필요. 다양한 종류의 LLM과 검색기에 대한 확장성 연구 필요. 대규모 데이터셋에서의 성능 평가 필요.
👍