Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization

Created by

Haebom

저자

Yihang Yao, Zhepeng Cen, Haohong Lin, Shiqi Liu, Zuxin Liu, Jiacheng Zhu, Zhang-Wei Hong, Laixi Shi, Ding Zhao

💡 개요

본 논문은 능동적인 계획, 질의, 상호작용을 통해 효율적인 태스크 완수를 목표로 하는 능동형 LLM 에이전트 훈련의 핵심 과제인 태스크 성능과 사용자 참여 간의 균형 문제를 해결하고자 합니다. 이를 위해 능동적 추론 및 정보 수집 능력을 강화하는 행동 강화 기법과 비효율적이거나 중복적인 상호작용을 억제하고 사용자 기대에 부합하도록 에이전트 행동을 규제하는 행동 규제 기법을 결합한 BAO(Behavioral Agentic Optimization) 프레임워크를 제안합니다. BAO는 사용자RL 벤치마크에서 기존 능동형 에이전트 RL 기반 모델 대비 우수한 성능을 보였으며, 상업용 LLM 에이전트와 유사하거나 더 나은 성능을 달성했습니다.

🔑 시사점 및 한계

•

능동형 LLM 에이전트 훈련 시 태스크 성능과 사용자 만족도라는 두 가지 목표 간의 상충 관계를 효과적으로 관리할 수 있는 새로운 방법론을 제시합니다.

•

행동 강화와 행동 규제를 결합함으로써 에이전트의 능동성과 사용자 중심적인 상호작용을 동시에 개선할 수 있음을 입증합니다.

•

복잡한 다중 턴 시나리오에서 사용자 의도에 부합하는 능동적이고 효율적인 LLM 에이전트 개발에 기여할 수 있습니다.

•

제안된 BAO 프레임워크가 모든 종류의 능동형 에이전트 및 사용자 시나리오에 최적으로 적용될 수 있는지, 또는 특정 태스크 유형이나 사용자 특성에 따라 추가적인 조정이 필요한지에 대한 탐구가 필요합니다.

PDF 보기

Made with Slashpage