본 연구는 최첨단 시각적 대규모 언어 모델(VLLM)인 GPT-4o, Gemini-1.5 Pro, Claude-3.5 Sonnet의 인지적 유연성을 측정하기 위해 위스콘신 카드 분류 검사(WCST)를 사용했습니다. 텍스트 기반 입력을 사용한 사고 과정 프롬프팅 하에서 VLLM이 인간 수준의 집합 전환 능력에 도달하거나 능가함을 밝혔습니다. 그러나 VLLM의 능력은 입력 방식과 프롬프팅 전략에 크게 영향을 받습니다. 또한 역할극을 통해 VLLM이 인지적 유연성 장애가 있는 환자와 일치하는 다양한 기능적 결손을 시뮬레이션할 수 있음을 발견하여 VLLM이 적어도 집합 전환 능력과 관련하여 뇌와 유사한 인지 구조를 가지고 있을 수 있음을 시사합니다. 이 연구는 VLLM이 이미 우리의 고차원 인지의 핵심 요소에서 인간 수준에 도달했음을 보여주고 복잡한 뇌 과정을 에뮬레이트하는 데 VLLM을 사용할 가능성을 강조합니다.