Sign In

Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?

Created by
  • Haebom
Category
Empty

저자

Kailas Dayanandan, Nikhil Kumar, Anand Sinha, Brejesh Lall

개요

본 논문은 시각적 인지에서 직관적이고 논리적인 처리 과정의 이중 사고 프레임워크를 제시합니다. 기존 연구에서 논리적 처리 과정에 대한 탐구가 부족했던 점을 보완하기 위해, 직관적 처리와 논리적 처리의 추론 결과가 상이한 이미지들을 포함하는 새로운 적대적 데이터셋을 제안합니다. 심리물리학적 연구를 통해 인간의 시각 처리 과정에서 다중 추론이 빠르게 연속적으로 발생함을 보여주고, 시각 처리의 조기 중단이 관련 정보의 누락으로 이어질 수 있음을 오류 분석을 통해 밝힙니다. MLLM과 VLM은 인간 시각의 직관적 처리 오류 수정에 상당한 진전을 보였으나, 논리적 처리 능력 향상은 직관적 처리에 비해 미흡함을 지적합니다. 반면, 분할 모델은 인간의 직관적 처리와 유사한 오류를 보이며, 하위 구조에 대한 이해가 부족함을 보여줍니다. 자율주행 등 안전 중요 분야에서 AI 시스템의 적용이 증가함에 따라, 논리적 처리 능력의 통합이 성능 향상뿐 아니라 확장 기반 접근 방식의 한계를 해결하고 실제 환경에서의 강건성과 신뢰성을 보장하는 데 필수적임을 강조합니다.

시사점, 한계점

시사점:
인간 시각의 이중 사고 프레임워크에 대한 새로운 증거 제시 및 심층 학습 모델의 질적 행동 연구를 위한 새로운 적대적 데이터셋 제공.
인간 시각 처리 과정에서의 다중 추론 및 조기 중단의 영향 규명.
MLLM과 VLM의 직관적 처리 오류 수정 능력 향상과 논리적 처리 능력 향상의 불균형을 제시.
안전 중요 분야에서 AI 시스템의 신뢰성 및 강건성 확보를 위한 논리적 처리 능력 통합의 중요성 강조.
한계점:
제시된 적대적 데이터셋의 일반화 가능성에 대한 추가 연구 필요.
MLLM과 VLM의 논리적 처리 능력 향상을 위한 구체적인 방안 제시 부족.
분할 모델의 하위 구조 이해 부족에 대한 더 자세한 분석 필요.
👍