HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks
Created by
Haebom
저자
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
개요
본 논문은 추론 시간 확장(Inference-Time Scaling)을 개선하기 위해, 인간의 시행착오 및 피드백 과정을 모방한 새로운 방법을 제시합니다. 기존 방법들이 검증 가능한 답변을 요구하는 과제에 한정된 반면, 본 연구는 열린 끝(open-ended) 일반 영역 과제에도 적용 가능하도록 설계되었습니다. 이를 위해, HelpSteer3 데이터셋을 이용하여 초기 응답 생성 모델, 피드백 모델, 응답 수정 모델 세 가지 모델을 학습시켰습니다. 각 모델은 순차적으로 동작하여 초기 응답의 품질을 향상시키고, Chatbot Arena Elo 예측력이 높은 Arena Hard 벤치마크에서 최첨단 성능(92.7)을 달성했습니다. 이는 OpenAI o1-preview-2024-09-12 (90.4) 및 DeepSeek R1 (92.3)을 능가하는 결과입니다.