Core Knowledge Deficits in Multi-Modal Language Models
Created by
Haebom
Category
Empty
저자
Yijiang Li, Qingying Gao, Tianwei Zhao, Bingyang Wang, Haoran Sun, Haiyun Lyu, Dezhi Luo, Hokin Deng
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 견고성이 인간보다 떨어지고, 인간에게는 직관적인 간단한 작업에서 효율성이 저하되는 현상을 다룬다. 연구진은 이러한 결점이 인간의 초기 유년기부터 타고나는 기본적인 인지 능력 및 핵심 지식의 부재에서 비롯된다는 가설을 검증하기 위해, 발달 인지 과학에 기반하여 12가지 핵심 인지 개념을 포함하는 대규모 벤치마크인 CoreCognition 데이터셋을 개발했다. 219개의 모델을 10가지 프롬프트로 평가하여 총 2409개의 데이터 포인트를 분석한 결과, 모델들은 고차원 인지에서는 인간과 유사한 성능을 보이는 반면, 초기 발달 단계의 기본 능력에서는 핵심 지식 부족을 드러냈다. 또한 저차원 능력은 고차원 능력과는 달리 규모 확장에 거의 영향을 받지 않는다는 것을 발견했다. 마지막으로, MLLM이 핵심 지식으로 진정으로 발전하는 것이 아니라 환상적인 이해와 지름길 학습에 의존한다는 것을 보여주는 개념 해킹(Concept Hacking)이라는 평가 기법을 제시했다.
시사점, 한계점
•
시사점: MLLM의 성능 저하 원인을 핵심 지식 및 기본 인지 능력 부재로 규명하고, 이를 평가하기 위한 CoreCognition 데이터셋과 Concept Hacking 기법을 제시했다. 고차원 인지 능력과 저차원 인지 능력의 규모 확장 차이를 밝혔다.
•
한계점: CoreCognition 데이터셋이 12가지 핵심 인지 개념으로 구성되어 있어, 다양한 핵심 인지 능력을 포괄적으로 다루지 못할 수 있다. Concept Hacking 기법의 객관성과 일반화 가능성에 대한 추가적인 검증이 필요하다. MLLM의 핵심 지식 부족에 대한 보다 심층적인 메커니즘 분석이 필요하다.