InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Created by

Haebom

저자

Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu

💡 개요

본 논문은 LLM 에이전트가 실제 사용자 요청을 처리할 때 발생하는 정보 부족 문제를 해결하기 위해 InfoPO(Information-Driven Policy Optimization)라는 새로운 방법을 제안합니다. InfoPO는 다중 턴 상호작용을 불확실성 감소 과정으로 보고, 정보 획득으로 인해 에이전트의 행동 분포가 얼마나 변화하는지에 기반한 정보 이득 보상을 계산합니다. 이를 통해 작업 결과 보상과 결합하여 정보의 중요성을 파악하고 사용자 중심의 협업을 최적화합니다.

🔑 시사점 및 한계

•

사용자의 불완전한 요청에 효과적으로 대응하는 LLM 에이전트 개발의 새로운 방향 제시

•

정보 획득 과정의 가치를 정량화하여 더 효율적인 강화학습 기반 에이전트 학습 가능

•

사용자 시뮬레이터 변화나 새로운 환경에 대한 강건성과 일반화 성능 입증

•

정보 이득 보상 계산의 복잡성 및 실제 사용자 상호작용에서의 적용 가능성에 대한 추가 연구 필요

PDF 보기

Made with Slashpage