# Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

### 저자

Teng Wang, Zhangyi Jiang, Zhenqi He, Shenyang Tong, Wenhan Yang, Yanan Zheng, Zeyu Li, Zifan He, Hailei Gong, Zewen Ye, Shengjie Ma, Jianping Zhang

### 💡 개요

본 논문은 대규모 언어 모델(LLM)의 다단계 추론 능력을 향상시키기 위해 계층적 다단계 보상 모델(HRM)을 제안합니다. 기존의 프로세스 보상 모델(PRM)이 보상 해킹 문제로 인해 중간 단계 평가의 신뢰성이 떨어지고 데이터 수집 비용이 높다는 문제점을 해결하고자 합니다. HRM은 미세 및 거시적 수준 모두에서 개별 및 연속적 추론 단계를 평가하며, 특히 자기 성찰을 통한 오류 수정 시 다단계 추론의 일관성을 효과적으로 평가합니다.

### 🔑 시사점 및 한계

- HRM은 기존 PRM 대비 더 안정적이고 신뢰할 수 있는 추론 단계 평가를 제공합니다.

- 제안된 계층적 노드 압축(HNC) 기법은 훈련 데이터 생성 비용을 절감하면서도 데이터의 다양성과 견고성을 향상시킵니다.

- HRM은 다양한 추론 작업에 걸쳐 뛰어난 일반화 성능과 강건함을 보여주어 여러 도메인에 적용 가능합니다.

- 향후 연구에서는 HRM의 복잡성을 줄이고 더 효율적인 학습 전략을 탐색하는 것이 과제가 될 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2503.13551)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).