Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering
Created by
Haebom
저자
Shuzheng Si, Haozhe Zhao, Gang Chen, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Kaikai An, Kangyang Luo, Chen Qian, Fanchao Qi, Baobao Chang, Maosong Sun
개요
본 논문은 지시어 미세 조정 단계에서 LLM이 익숙하지 않은 지식을 포함하는 데이터로 학습할 경우 환각 현상이 발생하는 문제를 해결하기 위해 NOVA라는 새로운 프레임워크를 제시합니다. NOVA는 LLM의 학습된 지식과 잘 일치하는 고품질 데이터를 식별하여 환각 현상을 줄이는 데 중점을 둡니다. 내부 일관성 탐색(ICP)과 의미적 등가 식별(SEI)을 통해 LLM이 지시어 데이터에 얼마나 익숙한지를 측정합니다. ICP는 여러 번 자체 생성된 응답 간의 일관성을 계산하여 LLM의 지시어 이해도를 평가하고, SEI는 제안된 의미 클러스터링과 투표 전략을 사용하여 생성된 응답과 목표 응답을 비교하여 LLM의 목표 응답 친숙도를 평가합니다. 마지막으로, 선택된 샘플의 품질을 보장하기 위해 친숙함 이상의 특성을 고려하는 전문가 정렬 보상 모델을 도입합니다. 데이터 품질을 고려하고 익숙하지 않은 데이터를 피함으로써 선택된 데이터를 활용하여 LLM이 지시어를 따르고 환각 현상을 줄이도록 효과적으로 정렬할 수 있습니다.