Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation

Created by
  • Haebom

저자

Hengran Zhang, Minghao Tang, Keping Bi, Jiafeng Guo, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng

개요

본 논문은 대규모 언어 모델(LLM)을 활용하여 문서 유용성을 주석화하고, 검색 및 검색 증강 생성(RAG) 시스템 훈련에서 값비싼 수동 주석에 대한 의존도를 줄이는 방법을 탐구합니다. 검색 관련성과 생성적 유용성 간의 차이를 해결하기 위해 LLM을 사용하여 문서 유용성을 주석화합니다. 쿼리당 여러 개의 긍정적 샘플을 효과적으로 활용하기 위해, 이들의 합산된 한계 우도를 극대화하는 새로운 손실 함수를 제안합니다. Qwen-2.5-32B 모델을 사용하여 MS MARCO 데이터셋에 유용성 주석을 달고, MS MARCO 및 BEIR에 대한 검색 실험과 MS MARCO QA, NQ, HotpotQA에 대한 RAG 실험을 수행합니다. 실험 결과, LLM이 생성한 주석은 수동 주석이나 하위 QA 지표로만 훈련된 모델에 비해 도메인 외 검색 성능을 향상시키고 RAG 결과를 개선하는 것으로 나타났습니다. 또한, LLM 주석을 수동 주석의 20%와 결합하여 전체 수동 주석을 사용한 것과 비슷한 성능을 달성했습니다. 본 연구는 새로운 말뭉치에 QA 시스템을 초기화하기 위한 LLM 주석 활용에 대한 포괄적인 접근 방식을 제시합니다.

시사점, 한계점

시사점:
LLM을 활용한 문서 유용성 주석화는 수동 주석에 대한 의존도를 줄이고, 비용 효율적인 QA 시스템 구축을 가능하게 합니다.
LLM 주석은 도메인 외 검색 성능 및 RAG 성능 향상에 기여합니다.
소량의 수동 주석과 LLM 주석을 결합하여 높은 성능을 달성할 수 있습니다.
새로운 말뭉치에 대한 QA 시스템 초기화를 위한 효과적인 방법을 제시합니다.
한계점:
LLM 주석의 정확도 및 신뢰성에 대한 추가적인 연구가 필요합니다.
특정 LLM 및 데이터셋에 대한 결과의 일반화 가능성에 대한 검증이 필요합니다.
다양한 유형의 질문 및 데이터셋에 대한 추가적인 실험이 필요합니다.
👍