Sign In

CATArena: Evaluation of LLM Agents through Iterative Tournament Competitions

Created by
  • Haebom
Category
Empty

저자

Lingyue Fu, Xin Ding, Yaoming Zhu, Shao Zhang, Lin Qiu, Weiwen Liu, Weinan Zhang, Xuezhi Cao, Xunliang Cai, Jiaxin Ding, Yong Yu

개요

LLM 에이전트가 복잡한 작업을 자율적으로 수행하는 방향으로 발전함에 따라, 본 연구는 에이전트의 학습 능력, 특히 자기 개선과 동료 학습의 중요성을 강조합니다. 이를 위해, 반복적인 상호 작용과 피드백을 통해 전략을 개선하고 최적화하는 경쟁적 동료 학습 프레임워크를 제안하고, 점수 포화 문제를 해결하기 위해 개방형 채점 방식을 가진 네 가지 보드 및 카드 게임을 특징으로 하는 토너먼트 스타일의 평가 플랫폼인 CATArena를 도입합니다. 실험 결과는 CATArena가 학습 능력과 전략 코딩과 같은 핵심 에이전트 능력에 대한 안정적이고 확장 가능한 벤치마킹을 제공함을 보여줍니다.

시사점, 한계점

시사점:
에이전트의 학습 능력, 특히 자기 개선과 동료 학습의 중요성을 강조.
경쟁적 동료 학습 프레임워크를 통해 에이전트의 전략 개선 및 최적화 가능성 제시.
점수 포화 문제를 해결하기 위한 CATArena 플랫폼 도입 (개방형 채점, 다양한 게임).
학습 능력, 전략 코딩과 같은 핵심 에이전트 능력에 대한 안정적이고 확장 가능한 벤치마킹 제공.
한계점:
논문에 구체적인 한계점에 대한 언급 없음.
👍