# Agentick: A Unified Benchmark for General Sequential Decision-Making Agents

### 저자

Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth

### 💡 개요

본 논문은 다양한 AI 에이전트 연구 접근 방식(강화학습, 파운데이션 모델 등)을 공정하게 비교할 수 있는 통합 벤치마크인 Agentick을 제안합니다. Agentick은 6가지 능력 범주, 4가지 난이도, 5가지 관측 양식에 걸쳐 37개의 절차적으로 생성된 작업을 제공하여, 강화학습, LLM, VLM, 하이브리드, 인간 에이전트 등을 동일한 기준으로 평가할 수 있도록 합니다. 실험 결과, 특정 접근 방식이 모든 면에서 우위를 점하지 못하며, 특히 ASCII 관측이 자연어보다 일관되게 우수한 성능을 보였습니다.

### 🔑 시사점 및 한계

- 다양한 AI 에이전트 패러다임 간의 공정한 비교를 위한 표준화된 평가 프레임워크의 필요성을 강조합니다.

- 멀티모달 관측(ASCII 등)이 복잡한 순차적 의사결정 작업에서 잠재적으로 더 큰 이점을 가질 수 있음을 시사합니다.

- 현재 파운데이션 모델 에이전트의 성능 향상을 위해 더욱 발전된 추론 능력 및 훈련 방법론이 필요함을 나타냅니다.

- Agentick 벤치마크의 복잡성과 평가 범위가 넓어, 모든 구성 요소를 완전히 탐색하는 데는 상당한 계산 자원이 요구될 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2605.06869)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).