도구 사용 LLM 에이전트의 성능을 다차원적으로 평가하기 위한 프레임워크인 TRACE를 소개합니다. 기존 벤치마크의 한계를 극복하고, 에이전트의 문제 해결 궤적을 효율성, 환각, 적응성과 같은 측면에서 평가합니다. TRACE는 증거 뱅크를 활용하여 추론 단계에서 수집된 지식을 축적하고, 다면적인 분석과 평가를 가능하게 합니다. 새로운 메타 평가 데이터셋을 구축하여 TRACE의 성능을 검증했으며, 소규모 오픈 소스 LLM에서도 정확한 평가가 가능함을 확인했습니다. 또한, TRACE를 통해 도구 사용 작업 해결 시 에이전트의 궤적을 평가하고, 새로운 관찰과 통찰력을 제시합니다.