본 논문은 시각-언어 모델(VLMs)의 상식 추론 능력, 특히 유추 추론과 취소 가능한 추론 능력에 대한 이해가 부족함을 지적합니다. 기존 벤치마크는 일반적인 시각적 시나리오에 집중하여 모델 성능이 뛰어난 지각 및 추론 능력에서 비롯되는지, 아니면 순전히 통계적 기억에 의존하는지 판별하기 어렵다는 점을 문제 삼습니다. 이에 연구진은 비정형적인 사건에 초점을 맞춤으로써 VLMs의 핵심 능력에 대한 명확한 통찰력을 얻을 수 있다고 주장합니다. 이러한 분포 외 사건을 설명하고 이해하려면 모델이 기본적인 패턴 인식과 사전 지식의 반복 이상의 능력을 필요로 합니다. 따라서 연구진은 유추 및 취소 가능한 작업을 통해 예상치 못한 사건에 대한 추론 능력을 평가하기 위한 벤치마크인 BlackSwanSuite를 제시합니다. BlackSwanSuite는 모델에 제공되는 시각 정보의 양을 인위적으로 제한하면서 숨겨진 예상치 못한 사건에 대해 질문하거나, 사건에 대한 기존 가설을 변경할 수 있는 새로운 시각 정보를 제공하는 작업으로 구성됩니다. 3,800개 이상의 객관식 질문, 4,900개 이상의 생성형 질문, 6,700개 이상의 긍정/부정 질문으로 구성되며, 1,655개의 비디오를 포함합니다. GPT-4o, Gemini 1.5 Pro, LLaVA-Video 등 최첨단 VLMs를 광범위하게 평가한 결과, 이러한 작업에서 인간보다 최대 32%의 성능 차이가 있음을 발견했습니다. 이는 현재 VLMs의 주요 한계를 보여주며, 향상된 모델 아키텍처와 훈련 전략의 필요성을 강조합니다. 데이터와 순위표는 blackswan.cs.ubc.ca에서 확인할 수 있습니다.