# Evaluating Cognitive Age Alignment in Interactive AI Agents

### 저자

Yifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

### 💡 개요

본 논문은 MLLM 기반 AI 에이전트가 인간의 인지 발달 단계를 얼마나 잘 모방하는지를 평가하기 위해, 아동 지능 검사(WISC)에서 영감을 받은 새로운 대화형 벤치마크인 ChildAgentEval을 제안합니다. 이 벤치마크는 다양한 MLLM 기반 AI 에이전트의 추론 능력을 연령별 인간 발달 단계와 체계적으로 비교하여, 현재 AI 에이전트가 특정 연령대의 인지 행동을 시뮬레이션하는 데 어느 정도의 한계를 보이는지를 명확히 드러냅니다.

### 🔑 시사점 및 한계

- 현재 AI 에이전트는 단순해 보이는 아동 수준의 인지 과제에서도 인간과 큰 격차를 보이며, 이는 AI의 일반적인 문제 해결 능력에 대한 재고를 요구합니다.

- ChildAgentEval은 AI의 인지적 성숙도를 측정하는 최초의 심리 측정학적으로 검증된 벤치마크로서, AI 에이전트의 실질적인 지능과 인간 지능 간의 간극을 객관적으로 평가할 수 있는 틀을 제공합니다.

- 본 벤치마크의 개발은 MLLM의 언어 및 시각적 추론 능력 발전에 기여할 수 있으나, 벤치마크 자체의 포괄성 및 다양한 문화적 배경을 고려한 평가 등은 향후 과제로 남아있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.17894)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).