Sign In

Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Jung Hyun Lee, June Yong Yang, Byeongho Heo, Dongyoon Han, Kyungsu Kim, Eunho Yang, Kang Min Yoo

개요

본 논문은 대규모 언어 모델(LLM)의 수학 문제 해결 능력 향상을 위한 테스트 시점 계산 검색 전략의 발전에 따라 강력한 검증기 구축의 필요성이 증대됨을 지적합니다. 기존 검증기는 주로 Best-of-N 검색을 위해 설계되어 트리 검색 기법에는 최적화되지 않았다는 한계를 밝히고, 부분적인 해결책을 간접적으로 평가하거나 유망한 중간 단계를 조기에 잘라내는 문제점을 제시합니다. 이를 해결하기 위해, 본 논문은 각 토큰에 정답에 도달할 가능성을 반영하는 확률을 할당하는 새로운 검증기인 토큰 감독 가치 모델(TVM)을 제안합니다. TVM은 토큰 단위 감독을 통해 부분적인 해결책을 직접적으로 평가하여, 트리 검색 중 유망한 중간 단계와 잘못된 중간 단계를 효과적으로 구분합니다. 실험 결과, 트리 검색 기반 추론 전략과 TVM을 결합하면 수학 문제 해결 과제에서 LLM의 정확도가 크게 향상되고 기존 검증기를 능가함을 보여줍니다.

시사점, 한계점

시사점:
토큰 단위 감독을 활용한 새로운 검증기인 TVM을 제안하여 LLM의 수학 문제 해결 능력 향상에 기여.
트리 검색 기반 추론 전략에서 기존 검증기의 한계를 극복하고 성능 향상을 달성.
TVM을 통해 부분 해결책의 직접적이고 명시적인 평가 가능.
수학 문제 해결 분야에서 LLM의 성능 향상에 대한 새로운 방향 제시.
한계점:
TVM의 성능은 특정 수학 문제 해결 과제와 데이터셋에 국한될 가능성 존재.
다른 유형의 문제 해결 과제에 대한 TVM의 일반화 성능에 대한 추가 연구 필요.
TVM의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
다양한 LLM 아키텍처와의 호환성 및 적용 가능성에 대한 추가적인 검증 필요.
👍