본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 보상 모델(RM)의 중요성에도 불구하고, 기존 최첨단 오픈 RM들이 대부분의 평가 벤치마크에서 저조한 성능을 보이는 문제를 해결하기 위해, 대규모 선호도 데이터셋 SynPref-40M을 제시합니다. 4천만 개의 선호도 쌍으로 구성된 이 데이터셋은 인간과 AI의 시너지 효과를 활용한 2단계 파이프라인을 통해 생성되었으며, 인간의 정확한 주석과 AI의 확장성을 결합하여 효율적인 데이터 큐레이션을 가능하게 합니다. 이 데이터셋의 일부를 사용하여 훈련된 8개의 보상 모델(0.6B~8B 파라미터)로 구성된 Skywork-Reward-V2를 소개하며, 인간 선호도 정렬, 목표 정확성, 안전성, 스타일 편향 저항성, 최고 N개 확장성 등 다양한 측면에서 최첨단 성능을 달성함을 보여줍니다. 실험 결과는 데이터 규모뿐 아니라 고품질 큐레이션이 효과에 중요하게 기여함을 확인합니다.
시사점, 한계점
•
시사점:
◦
인간-AI 협력적 데이터 큐레이션 방식을 통해 대규모 고품질 선호도 데이터셋을 구축할 수 있음을 보여줌.
◦
Skywork-Reward-V2가 기존 오픈 보상 모델들의 성능을 뛰어넘는 최첨단 성능을 달성함.
◦
대규모 고품질 데이터와 효과적인 훈련 방법을 통해 RLHF의 성능을 향상시킬 수 있음을 시사.
◦
보상 모델의 다양한 측면(인간 선호도 정렬, 목표 정확성, 안전성 등)에서 성능 향상을 달성.