Sign In

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Teng Wang, Zhangyi Jiang, Zhenqi He, Shenyang Tong, Wenhan Yang, Yanan Zheng, Zeyu Li, Zifan He, Hailei Gong, Zewen Ye, Shengjie Ma, Jianping Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 보상 모델 접근 방식인 계층적 보상 모델(HRM)을 제안한다. HRM은 세분화 및 거친 수준에서 개별 및 연속 추론 단계를 평가하여 다단계 추론의 일관성을 효과적으로 파악한다. 또한, 훈련 데이터 생성 비용을 줄이기 위해 계층적 노드 압축(HNC)이라는 경량 데이터 증강 전략을 도입하여 MCTS 생성 추론 궤적에 적용, HRM 훈련 데이터의 다양성과 견고성을 향상시킨다. 실험 결과는 HRM이 기존의 PRM보다 더 안정적이고 신뢰할 수 있는 평가를 제공하며, MATH500 및 GSM8K 데이터셋에 대한 교차 도메인 평가를 통해 다양한 추론 작업에 대한 강한 일반화 및 견고성을 입증한다.

시사점, 한계점

시사점:
PRM의 보상 해킹 문제를 해결하고, 더 안정적인 추론 평가를 제공한다.
다단계 추론의 일관성을 효과적으로 평가한다.
HNC를 통해 훈련 데이터 생성 비용을 줄이고, 데이터 다양성을 향상시킨다.
MATH500, GSM8K 등 다양한 데이터셋에 대한 일반화 능력을 입증했다.
한계점:
논문에 제시된 구체적인 HRM 및 HNC 구현 세부 사항에 대한 추가 정보가 필요하다.
다른 추론 모델과의 비교 및 성능 차이에 대한 정량적 분석이 부족할 수 있다.
HRM의 확장성 및 대규모 데이터셋 적용에 대한 추가 연구가 필요하다.
👍