Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment
Created by
Haebom
저자
Samuel Yeh, Sharon Li
개요
본 논문은 대규모 언어 모델 (LLM) 정렬에 있어 인간 피드백의 잡음과 불일치 문제를 해결하기 위해, 13가지 선호도 데이터 정제 방법의 효과를 평가하는 포괄적인 벤치마크인 PrefCleanBench를 제시합니다. PrefCleanBench는 다양한 데이터 세트, 모델 아키텍처 및 최적화 알고리즘에 걸쳐 정제 전략의 정렬 성능과 일반화 가능성을 평가하기 위한 표준화된 프로토콜을 제공합니다.