Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do AI Models Perform Human-like Abstract Reasoning Across Modalities?

Created by
  • Haebom

저자

Claas Beger, Ryan Yi, Shuhao Fu, Arseny Moskvichev, Sarah W. Tsai, Sivasankaran Rajamanickam, Melanie Mitchell

개요

OpenAI의 o3-preview 추론 모델이 ARC-AGI 벤치마크에서 인간 정확도를 넘어섰지만, 최첨단 모델이 과제 제작자가 의도한 추상화를 인식하고 추론하는지 조사합니다. ConceptARC에서 모델의 추상화 능력을 조사합니다. 입력 방식(텍스트 vs. 시각), 모델이 외부 Python 도구를 사용할 수 있는지 여부, 추론 모델의 추론 노력의 양을 변경하는 설정을 사용하여 모델을 평가합니다. 출력 정확도를 측정하는 것 외에도, 모델이 솔루션을 설명하기 위해 생성하는 자연어 규칙을 세밀하게 평가합니다. 이중 평가는 모델이 표면 수준 패턴에 의존하기보다는 ConceptARC가 유도하도록 설계된 추상화를 사용하여 과제를 해결하는지 평가할 수 있게 해줍니다. 결과에 따르면, 텍스트 기반 표현을 사용하는 일부 모델이 인간의 출력 정확도에 일치하지만, 최고의 모델 규칙은 종종 표면 수준 "지름길"에 기반하며 의도된 추상화를 인간보다 훨씬 적게 포착합니다. 따라서 정확도만으로 평가할 때 일반적인 추상적 추론 능력이 과대평가될 수 있습니다. 시각적 방식에서 AI 모델의 출력 정확도가 급격히 감소하지만, 규칙 수준 분석을 통해 모델이 과소평가될 수 있다는 것을 알 수 있습니다. 여전히 상당한 비율의 규칙이 의도된 추상화를 포착하지만, 종종 이러한 규칙을 올바르게 적용할 수 없기 때문입니다. 요컨대, 결과는 모델이 여전히 인간보다 추상적 추론에서 뒤쳐져 있으며, ARC와 같은 과제에서 추상적 추론을 평가하기 위해 정확도만 사용하는 것은 텍스트 방식에서 추상적 추론 능력을 과대평가하고 시각적 방식에서 과소평가할 수 있음을 보여줍니다.

시사점, 한계점

텍스트 기반 모델은 인간과 유사한 정확도를 보이지만, 표면적 패턴에 의존하는 경우가 많아 추상적 추론 능력이 과대평가될 수 있다.
시각적 방식의 모델은 정확도가 낮지만, 의도된 추상화를 포착하는 규칙을 생성하는 경우가 있어 추론 능력이 과소평가될 수 있다.
정확도만으로는 추상적 추론 능력을 정확하게 평가하기 어렵다.
본 연구는 멀티모달 모델의 추상적 추론 능력을 보다 정확하게 평가하는 프레임워크를 제시한다.
ARC-like 과제에서 추상적 추론 능력 평가 시 정확도뿐만 아니라 규칙 분석을 함께 수행해야 한다.
👍