# PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization

### 저자

Wonjoong Kim, Yeonjun In, Sangwu Park, Dongha Lee, Chanyoung Park

### 💡 개요

본 연구는 복잡한 다단계 작업을 수행하는 LLM의 어려움을 해결하기 위해 Prefix-Aware Internal Reward (PAIR)라는 새로운 내부 보상 모델을 제안합니다. PAIR는 고정된 은닉 상태 탐색기와 경량 주의 기반 헤드를 결합하여, 이전 단계의 오염에도 불구하고 단계별 정확성을 효과적으로 추정합니다. 실험 결과, PAIR는 오염된 궤적에서 최고 수준의 AUROC를 달성했으며, 외부 모델 호출이나 정답 의존성 없이 GRPO 훈련을 위한 밀집된 보상 신호를 제공합니다.

### 🔑 시사점 및 한계

- 복잡한 다단계 작업에서 LLM의 중간 단계 보상 할당 문제를 해결할 수 있는 실용적이고 효율적인 방법을 제시합니다.

- 이전 단계의 오염에 강건하면서도 정확성을 유지하는 내부 보상 신호 추정의 가능성을 보여줍니다.

- PAIR의 성능은 특히 "prefix contamination"이 심한 경우에 두드러지지만, 다양한 종류의 오염 및 에이전트 아키텍처에 대한 일반화 성능은 추가적인 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2605.17877)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).