Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment

Created by
  • Haebom

저자

Jiazheng Zhang, Wenqing Jing, Zizhuo Zhang, Zhiheng Xi, Shihan Dou, Rongxiang Weng, Jiahuan Li, Jingang Wang, MingXu Cai, Shibo Hong, Tao Gui, Qi Zhang

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 가치와 정렬시키는 데 필수적인 보상 모델(RM)의 한계점을 다룹니다. 인간 피드백의 노이즈로 인해 RM이 잘못된 패턴에 과적합되어 정책 최적화 과정에서 오류를 발생시키는 보상 오일반화 문제를 분석합니다. 노이즈가 많은 데이터는 학습을 어렵게 하고 불안정성을 초래한다는 것을 실험적으로 보여주며, 노이즈가 있는 전체 데이터셋으로 학습된 RM을 사용하여 최적화된 LLM은 필터링된 고품질 선호도 데이터로 학습된 LLM보다 성능이 떨어진다는 것을 밝힙니다. 이를 해결하기 위해, 동료 검토 및 커리큘럼 학습을 결합하여 강건성을 향상시키는 온라인 프레임워크인 협업 보상 모델링(CRM)을 제안합니다. 두 개의 RM이 병렬로 학습되어 서로의 데이터 선택을 평가하여 잠재적인 노이즈를 제거하고, 커리큘럼 학습은 선호도 데이터를 쉬운 것부터 어려운 것으로 구조화하여 동기화된 학습과 안정적인 피드백을 보장합니다. 실험 결과, CRM은 40%의 레이블 노이즈 하에서 RewardBench에서 최대 9.94점의 정확도 향상을 보이는 등 일반화 성능을 향상시키며, 암묵적 보상 정렬 방법과도 호환되어 실용적이고 다용도의 강건한 정렬 전략을 제공합니다.

시사점, 한계점

시사점:
인간 피드백의 노이즈가 LLM 정렬에 미치는 부정적 영향을 체계적으로 분석하고, 그 해결책으로 CRM을 제시.
CRM은 동료 검토와 커리큘럼 학습을 통해 보상 모델의 강건성을 향상시켜 일반화 성능을 개선.
RewardBench에서 상당한 성능 향상을 실험적으로 입증.
암묵적 보상 정렬 방법과의 호환성을 통해 실용적인 LLM 정렬 전략 제공.
한계점:
CRM의 효과는 특정 데이터셋(RewardBench)에 국한될 가능성.
다른 유형의 노이즈나 보상 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
동료 검토 및 커리큘럼 학습의 계산 비용 및 복잡성에 대한 고려 필요.
CRM이 모든 종류의 노이즈에 대해 동일한 효과를 보이는지에 대한 추가적인 연구가 필요.
👍