Process Reward Models for LLM Agents: Practical Framework and Directions

작성자

Haebom

카테고리

Empty

저자

Sanjiban Choudhury

개요

Agent Process Reward Models (AgentPRM)은 LLM 에이전트가 상호작용을 통해 지속적으로 개선되도록 훈련하는 간단하고 확장 가능한 프레임워크입니다. AgentPRM은 경량 액터-크리틱 패러다임을 따르며, 몬테 카를로 롤아웃을 사용하여 보상 목표를 계산하고 정책을 최적화합니다. 기존 RLHF 파이프라인에 대한 수정이 최소화되어 대규모로 통합하기 쉽습니다. AgentPRM 외에도 명시적인 결과 감독 없이 데모에서 프로세스 보상을 직접 학습하는 InversePRM을 제안합니다. 탐색, 프로세스 보상 조정 및 모델 예측 추론을 포함한 주요 과제와 기회도 탐구합니다. ALFWorld 벤치마크에서 평가하여 AgentPRM 및 InversePRM로 훈련된 소규모 3B 모델이 강력한 GPT-4o 기준보다 성능이 우수함을 보여주고, 테스트 시간 확장, 보상 해킹 등을 분석합니다. 코드는 https://github.com/sanjibanc/agent_prm 에서 확인할 수 있습니다.