Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Created by
  • Haebom

저자

Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

개요

SelfCite는 대규모 언어 모델(LLM)이 생성한 응답 문장에 대해 고품질의 세밀한 문장 수준 인용을 생성하도록 정렬하는 새로운 자기 지도 학습 방식입니다. 비용이 많이 들고 노력이 많이 드는 어노테이션에만 의존하는 대신, SelfCite는 문맥 제거를 통해 LLM 자체가 제공하는 보상 신호를 활용합니다. 인용이 필요한 경우, 인용된 텍스트를 문맥에서 제거하면 동일한 응답이 생성되지 않아야 하며, 충분한 경우 인용된 텍스트만 유지해도 동일한 응답이 유지되어야 합니다. 이 보상은 추론 시 최적의 N 샘플링 전략을 안내하여 인용 품질을 크게 향상시키고, 모델을 미세 조정하여 더 나은 인용을 생성하도록 선호도 최적화에 사용될 수 있습니다. SelfCite의 효과는 LongBench-Cite 벤치마크에서 5가지 장문 질문 답변 작업에 걸쳐 인용 F1을 최대 5.3포인트 증가시킨 결과로 입증되었습니다. 소스 코드는 https://github.com/facebookresearch/SelfCite 에서 이용 가능합니다.

시사점, 한계점

시사점:
비용 효율적인 자기 지도 학습 방식을 통해 LLM의 인용 생성 능력 향상.
LongBench-Cite 벤치마크에서 인용 정확도(F1)의 상당한 개선.
문맥 제거 기반 보상 신호를 이용한 새로운 접근 방식 제시.
추론 시 최적의 N 샘플링 전략 및 선호도 최적화를 통한 성능 향상.
오픈소스 코드 공개를 통한 접근성 향상.
한계점:
LongBench-Cite 벤치마크에 대한 성능 개선이 다른 벤치마크에서도 동일하게 적용될지는 추가 연구 필요.
자기 지도 학습 방식의 특성상, 완벽한 인용 생성을 보장하지는 않을 수 있음.
문맥 제거 기반 보상 신호의 정확성에 대한 추가적인 검증 필요.
특정 유형의 질문이나 데이터셋에 편향될 가능성 존재.
👍