Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Teng Wang, Zhangyi Jiang, Zhenqi He, Wenhan Yang, Yanan Zheng, Zeyu Li, Zifan He, Shenyang Tong, Hailei Gong

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 보상 모델 접근법인 계층적 보상 모델(HRM)을 제안합니다. 기존의 프로세스 보상 모델(PRM)이 보상 해킹 문제로 인해 신뢰성이 떨어지는 단점을 해결하기 위해, HRM은 세분화된 수준과 조악한 수준에서 개별 및 연속적인 추론 단계를 모두 평가합니다. 특히 이전 추론 단계가 잘못된 경우 추론 일관성 및 자기 반성 평가에 더욱 효과적입니다. 또한, 몬테카를로 트리 탐색(MCTS)을 통한 PRM 훈련 데이터 자체 생성의 비효율성을 해결하기 위해, 노드 병합 기반의 경량적이고 효과적인 데이터 증강 전략인 계층적 노드 압축(HNC)을 제시합니다. HNC는 MCTS 결과의 다양성을 높이고 노이즈를 도입하여 레이블 강건성을 향상시킵니다. PRM800K, MATH500, GSM8K 데이터셋에서의 실험 결과는 HRM과 HNC의 조합이 PRM에 비해 우수한 안정성과 신뢰성을 달성함을 보여줍니다.

시사점, 한계점

시사점:
기존 PRM의 보상 해킹 문제를 해결하는 새로운 계층적 보상 모델(HRM) 제시
추론 일관성 및 자기 반성 평가에 효과적인 HRM의 성능 검증
MCTS 기반 데이터 증강의 비효율성을 해결하는 경량적 데이터 증강 전략(HNC) 제시
다양한 추론 작업에 대한 HRM의 우수한 일반화 및 강건성 확인
다양한 데이터셋(PRM800K, MATH500, GSM8K)에서의 실험적 검증을 통해 HRM의 우수성 입증
한계점:
본 논문에서 제시된 HNC의 효과는 특정 데이터셋 및 모델에 국한될 수 있으며, 다른 환경에서의 일반화 성능에 대한 추가 연구가 필요함.
HRM의 성능 향상이 HNC에 의한 것인지, HRM 자체의 개선에 의한 것인지 명확히 구분하기 위한 추가 분석 필요.
소스 코드 공개는 있으나, 재현성을 확보하기 위한 추가적인 세부 정보 제공이 필요할 수 있음.
👍