Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test

Created by
  • Haebom

저자

Guangfu Hao, Frederic Alexandre, Shan Yu

개요

본 연구는 최첨단 시각적 대규모 언어 모델(VLLM)인 GPT-4o, Gemini-1.5 Pro, Claude-3.5 Sonnet의 인지적 유연성을 측정하기 위해 위스콘신 카드 분류 검사(WCST)를 사용했습니다. 텍스트 기반 입력을 사용한 사고 과정 프롬프팅 하에서 VLLM이 인간 수준의 집합 전환 능력에 도달하거나 능가함을 밝혔습니다. 그러나 VLLM의 능력은 입력 방식과 프롬프팅 전략에 크게 영향을 받습니다. 또한 역할극을 통해 VLLM이 인지적 유연성 장애가 있는 환자와 일치하는 다양한 기능적 결손을 시뮬레이션할 수 있음을 발견하여 VLLM이 적어도 집합 전환 능력과 관련하여 뇌와 유사한 인지 구조를 가지고 있을 수 있음을 시사합니다. 이 연구는 VLLM이 이미 우리의 고차원 인지의 핵심 요소에서 인간 수준에 도달했음을 보여주고 복잡한 뇌 과정을 에뮬레이트하는 데 VLLM을 사용할 가능성을 강조합니다.

시사점, 한계점

시사점:
최첨단 VLLM이 WCST에서 인간 수준 이상의 성능을 보임으로써, 고차원 인지 능력의 핵심 요소인 집합 전환 능력을 갖추고 있음을 시사합니다.
VLLM을 사용하여 인지적 유연성 장애와 같은 복잡한 뇌 과정을 시뮬레이션할 수 있는 가능성을 제시합니다.
사고 과정 프롬프팅을 통해 VLLM의 인지적 유연성을 향상시킬 수 있음을 보여줍니다.
한계점:
VLLM의 성능이 입력 방식과 프롬프팅 전략에 크게 의존적입니다.
본 연구는 특정 VLLM과 WCST에 국한되어 있어 일반화 가능성에 제한이 있습니다.
VLLM의 인지적 유연성이 인간의 인지적 유연성과 동일한 메커니즘을 통해 작동하는지에 대한 추가 연구가 필요합니다.
👍