Sign In

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

Created by
  • Haebom
Category
Empty

저자

Jiayu Liu, Cheng Qian, Zhaochen Su, Qing Zong, Shijue Huang, Bingxiang He, Yi R. Fung

개요

본 논문은 대규모 언어 모델(LLM) 에이전트의 자원 효율성과 적응성을 간과하는 기존 평가 방식의 한계를 지적하며, 경제적 추론 및 계획 재조정 능력을 평가하기 위한 비용 중심 벤치마크인 CostBench를 제안합니다. CostBench는 여행 계획 도메인을 기반으로 하며, 다양한 비용을 가진 도구 시퀀스를 통해 해결 가능한 작업과 예측 불가능성을 시뮬레이션하는 동적 차단 이벤트를 포함합니다. CostBench를 통해 주요 모델을 평가한 결과, 비용 효율적인 계획 수립에 상당한 격차가 있으며, 특히 동적 환경에서 성능 저하가 심각함을 확인했습니다.

시사점, 한계점

시사점:
LLM 에이전트의 비용 효율적인 계획 능력의 중요성을 강조합니다.
경제적 추론 및 적응성을 평가하는 새로운 벤치마크 (CostBench)를 제시합니다.
CostBench를 통해 주요 모델들의 비용 인식 계획 능력의 한계를 실증적으로 보여줍니다.
미래 에이전트 개발을 위한 기반을 마련합니다.
한계점:
여행 계획 도메인에 국한된 벤치마크라는 점.
평가에 사용된 모델의 종류가 제한적일 수 있음.
동적 환경 시뮬레이션의 현실성 간의 괴리 존재 가능성.
CostBench의 결과가 다른 도메인에도 일반화될 수 있는지에 대한 추가 연구 필요.
👍