Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Created by
  • Haebom

저자

Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kiante Brantley, Wen Sun

개요

본 논문은 장문 추론 과정에 대한 값 모델 훈련을 위한 간단하고 효율적인 방법을 제안합니다. 기존의 과정 보상 모델(PRM)과 달리, 장문 추론 모델에서 정의하기 어려운 "단계" 개념이 필요하지 않습니다. 250만 개의 추론 과정 데이터셋을 수집하여 15억 토큰 수준의 값 모델을 훈련하고, DeepSeek 모델에 적용하여 테스트 시간 계산량을 확장하면서 성능을 향상시켰습니다. 블록 단위 값 유도 검색(VGS)과 최종 가중 다수결 투표를 통해 다수결 투표나 상위 n개 선택과 같은 표준 방식보다 더 나은 테스트 시간 확장성을 달성함을 확인했습니다. 64세대의 추론 예산으로, DeepSeek-R1-Distill-1.5B를 사용한 VGS는 네 가지 경쟁 수학 벤치마크(AIME 2024 & 2025, HMMT 2024년 2월 & 2025년 2월)에서 평균 45.7%의 정확도를 달성하여 o3-mini-medium과 동등한 수준에 도달했습니다. 또한 VGS는 동일한 성능의 다수결 투표를 달성하는 데 필요한 추론 FLOPs를 크게 줄였습니다. 데이터셋, 모델 및 코드베이스는 오픈소스로 공개됩니다.

시사점, 한계점

시사점:
장문 추론 모델에서 "단계" 개념 없이 효율적인 값 모델 훈련 방법 제시
15억 토큰 수준의 값 모델을 이용한 DeepSeek 모델 성능 향상 및 테스트 시간 계산량 확장
블록 단위 VGS와 가중 다수결 투표를 통한 향상된 테스트 시간 확장성 및 성능
기존 방법 대비 추론 FLOPs 감소
데이터셋, 모델, 코드베이스 오픈소스 공개
한계점:
특정 경쟁 수학 벤치마크에 대한 성능 평가에 국한됨. 다른 유형의 문제 또는 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
VGS의 효율성은 사용된 특정 모델과 데이터셋에 의존적일 수 있음. 다른 모델과 데이터셋에 대한 추가 실험이 필요.
250만 개의 추론 과정 데이터셋 규모가 충분한지에 대한 추가적인 검토 필요. 더 큰 데이터셋으로 성능 향상 여부 확인 필요.
👍