본 논문은 대규모 언어 모델(LLM)을 인간의 가치와 정렬시키는 데 필수적인 보상 모델(RM)의 한계점을 다룹니다. 인간 피드백의 노이즈로 인해 RM이 잘못된 패턴에 과적합되어 정책 최적화 과정에서 오류를 발생시키는 보상 오일반화 문제를 분석합니다. 노이즈가 많은 데이터는 학습을 어렵게 하고 불안정성을 초래한다는 것을 실험적으로 보여주며, 노이즈가 있는 전체 데이터셋으로 학습된 RM을 사용하여 최적화된 LLM은 필터링된 고품질 선호도 데이터로 학습된 LLM보다 성능이 떨어진다는 것을 밝힙니다. 이를 해결하기 위해, 동료 검토 및 커리큘럼 학습을 결합하여 강건성을 향상시키는 온라인 프레임워크인 협업 보상 모델링(CRM)을 제안합니다. 두 개의 RM이 병렬로 학습되어 서로의 데이터 선택을 평가하여 잠재적인 노이즈를 제거하고, 커리큘럼 학습은 선호도 데이터를 쉬운 것부터 어려운 것으로 구조화하여 동기화된 학습과 안정적인 피드백을 보장합니다. 실험 결과, CRM은 40%의 레이블 노이즈 하에서 RewardBench에서 최대 9.94점의 정확도 향상을 보이는 등 일반화 성능을 향상시키며, 암묵적 보상 정렬 방법과도 호환되어 실용적이고 다용도의 강건한 정렬 전략을 제공합니다.
시사점, 한계점
•
시사점:
◦
인간 피드백의 노이즈가 LLM 정렬에 미치는 부정적 영향을 체계적으로 분석하고, 그 해결책으로 CRM을 제시.
◦
CRM은 동료 검토와 커리큘럼 학습을 통해 보상 모델의 강건성을 향상시켜 일반화 성능을 개선.