Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents

Created by
  • Haebom

저자

Wonjoong Kim, Sangwu Park, Yeonjun In, Sein Kim, Dongha Lee, Chanyoung Park

개요

도구 사용 LLM 에이전트의 성능을 다차원적으로 평가하기 위한 프레임워크인 TRACE를 소개합니다. 기존 벤치마크의 한계를 극복하고, 에이전트의 문제 해결 궤적을 효율성, 환각, 적응성과 같은 측면에서 평가합니다. TRACE는 증거 뱅크를 활용하여 추론 단계에서 수집된 지식을 축적하고, 다면적인 분석과 평가를 가능하게 합니다. 새로운 메타 평가 데이터셋을 구축하여 TRACE의 성능을 검증했으며, 소규모 오픈 소스 LLM에서도 정확한 평가가 가능함을 확인했습니다. 또한, TRACE를 통해 도구 사용 작업 해결 시 에이전트의 궤적을 평가하고, 새로운 관찰과 통찰력을 제시합니다.

시사점, 한계점

시사점:
도구 사용 LLM 에이전트의 복잡한 행동을 효과적으로 평가하는 프레임워크 제시.
문제 해결 궤적의 다차원적 평가를 통해 에이전트 성능에 대한 심층적인 분석 가능.
증거 뱅크를 활용하여 평가 과정의 정확성과 효율성 향상.
소규모 오픈 소스 LLM에서도 적용 가능한 확장성.
기존 벤치마크의 한계를 극복하고 새로운 평가 방법론 제시.
한계점:
모든 유효한 ground-truth 궤적을 주석하기 어려운 근본적인 한계 존재.
LLM 기반 평가자의 잠재적인 편향 가능성.
TRACE의 성능은 증거 뱅크의 품질과 데이터셋의 다양성에 의존적.
👍