Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Created by

Haebom

저자

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang

💡 개요

본 연구는 다단계 추론 시 검색 보강 에이전트의 신뢰성 문제를 해결하기 위해, 검색 품질을 명시적인 평가 행동으로 전환하고 검색과 평가를 연동하는 \textsc{EvalAct} 방법을 제안합니다. 제안된 PCAR 최적화 기법은 명시적인 평가 점수를 활용하여 학습 신호를 세분화함으로써, 신뢰도 높은 구간에는 큰 가중치를 부여하고 불확실한 구간에는 보수적으로 접근합니다. 실험 결과, \textsc{EvalAct}는 특히 다단계 질의응답 태스크에서 상당한 성능 향상을 보이며 다양한 QA 벤치마크에서 최고 수준의 정확도를 달성했습니다.

🔑 시사점 및 한계

•

검색 증강 에이전트의 중간 단계 추론 과정을 효과적으로 최적화하기 위한 새로운 패러다임을 제시합니다.

•

명시적인 평가 메커니즘을 도입하여 에이전트의 의사 결정 과정에 대한 더 풍부하고 시기적절한 학습 신호를 제공할 수 있습니다.

•

복잡한 질의응답 시나리오에서 에이전트의 견고성과 신뢰성을 향상시키는 데 기여합니다.

•

제안된 방법론의 일반화 가능성과 다른 유형의 에이전트 또는 태스크에의 적용 가능성은 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage