PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Dongyi Liu, Yifan Niu, Qinwen Wang, Han Xiao, Jia Li

💡 개요

본 논문은 LLM 기반 검색 에이전트의 장기적인 보상 할당 문제를 해결하기 위해 Pivot-Based Credit Assignment (PiCA)라는 새로운 보상 메커니즘을 제안합니다. PiCA는 검색 궤적을 누적된 검색 진행 과정의 순차적 과정으로 재구성하고, 잠재적 기반 보상 성형(PBRS)을 활용하여 역사적 맥락에 따라 성공 확률에 의존하는 프로세스 보상을 정의합니다. 이를 통해 최종 과제 목표와 연계된 풍부하고, 피벗을 인지하며, 궤적 의존적인 가이던스를 제공합니다.

🔑 시사점 및 한계

•

LLM 기반 검색 에이전트의 장기적인 보상 할당 문제를 해결하여 성능을 향상시킬 수 있습니다.

•

피벗 스텝을 식별하고 이를 보상 신호로 활용함으로써, 보다 효과적인 학습 경로를 제공합니다.

•

제안된 PiCA 메커니즘은 다양한 크기의 모델에 걸쳐 일관된 성능 향상을 보여, 일반화 가능성이 높습니다.

•

향후 연구에서는 더 복잡한 검색 시나리오에서의 PiCA의 적용 가능성과 효율성을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage