SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
Created by
Haebom
저자
Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
개요
SelfCite는 대규모 언어 모델(LLM)이 생성한 응답 문장에 대해 고품질의 세밀한 문장 수준 인용을 생성하도록 정렬하는 새로운 자기 지도 학습 방식입니다. 비용이 많이 들고 노력이 많이 드는 어노테이션에만 의존하는 대신, SelfCite는 문맥 제거를 통해 LLM 자체가 제공하는 보상 신호를 활용합니다. 인용이 필요한 경우, 인용된 텍스트를 문맥에서 제거하면 동일한 응답이 생성되지 않아야 하며, 충분한 경우 인용된 텍스트만 유지해도 동일한 응답이 유지되어야 합니다. 이 보상은 추론 시 최적의 N 샘플링 전략을 안내하여 인용 품질을 크게 향상시키고, 모델을 미세 조정하여 더 나은 인용을 생성하도록 선호도 최적화에 사용될 수 있습니다. SelfCite의 효과는 LongBench-Cite 벤치마크에서 5가지 장문 질문 답변 작업에 걸쳐 인용 F1을 최대 5.3포인트 증가시킨 결과로 입증되었습니다. 소스 코드는 https://github.com/facebookresearch/SelfCite 에서 이용 가능합니다.