Rethinking Reward Models for Multi-Domain Test-Time Scaling
Created by
Haebom
저자
Dong Bok Lee, Seanie Lee, Sangwoo Park, Minki Kang, Jinheon Baek, Dongki Kim, Dominik Wagner, Jiongdao Jin, Heejun Lee, Tobias Bocklet, Jinyu Wang, Jingjing Fu, Sung Ju Hwang, Jiang Bian, Lei Song
개요
본 논문은 대규모 언어 모델(LLM)의 테스트 시 스케일링 과정에서 신뢰성을 평가하기 위해 사용되는 보상 모델(RM)의 다양한 변형을 분석한다. 기존 연구는 중간 추론 단계마다 점수를 매기는 과정 보상 모델(PRM)이 최종 답변만 평가하는 결과 보상 모델(ORM)보다 성능이 우수하다고 가정했지만, 이 논문은 14개의 다양한 도메인에서 4가지 보상 모델 변형(구분적 ORM 및 PRM, 생성적 ORM 및 PRM)을 통합적으로 평가한다. 결과적으로, 구분적 ORM이 구분적 PRM과 동등한 성능을 보이며, 생성적 PRM은 경쟁력이 없고, 생성적 ORM이 가장 견고하여 모든 테스트 도메인에서 상당한 이점을 얻는다는 것을 발견했다. 이는 PRM의 단계별 점수가 LLM 자동 라벨링에서 노이즈를 상속받고, 자기 수정 추론을 포함한 긴 추론 궤적을 평가하는 데 어려움이 있기 때문이라고 분석한다.
시사점, 한계점
•
시사점:
◦
미세한 감독이 항상 더 좋은 결과를 가져오는 것은 아니라는 점을 시사하며, 다중 도메인 배포를 위해 생성적 결과 검증 방식이 효과적일 수 있음을 보여준다.
◦
PRM 방식의 단계별 점수가 오류를 누적시키는 경향이 있음을 밝혀, 추론 길이의 증가에 따른 성능 저하 가능성을 제시한다.
◦
다양한 도메인에서 보상 모델의 성능을 비교 평가하는 데 필요한 코드, 데이터 세트 및 체크포인트를 공개하여 향후 연구를 지원한다.
•
한계점:
◦
구체적인 LLM 아키텍처나 모델 크기에 따른 성능 변화에 대한 정보는 제한적이다.
◦
연구 대상 도메인이 14개로 제한되어, 더 다양한 환경에서의 일반화 가능성은 추가적인 검증이 필요하다.