본 논문은 시각적 인지에서 직관적이고 논리적인 처리 과정의 이중 사고 프레임워크를 제시합니다. 기존 연구에서 논리적 처리 과정에 대한 탐구가 부족했던 점을 보완하기 위해, 직관적 처리와 논리적 처리의 추론 결과가 상이한 이미지들을 포함하는 새로운 적대적 데이터셋을 제안합니다. 심리물리학적 연구를 통해 인간의 시각 처리 과정에서 다중 추론이 빠르게 연속적으로 발생함을 보여주고, 시각 처리의 조기 중단이 관련 정보의 누락으로 이어질 수 있음을 오류 분석을 통해 밝힙니다. MLLM과 VLM은 인간 시각의 직관적 처리 오류 수정에 상당한 진전을 보였으나, 논리적 처리 능력 향상은 직관적 처리에 비해 미흡함을 지적합니다. 반면, 분할 모델은 인간의 직관적 처리와 유사한 오류를 보이며, 하위 구조에 대한 이해가 부족함을 보여줍니다. 자율주행 등 안전 중요 분야에서 AI 시스템의 적용이 증가함에 따라, 논리적 처리 능력의 통합이 성능 향상뿐 아니라 확장 기반 접근 방식의 한계를 해결하고 실제 환경에서의 강건성과 신뢰성을 보장하는 데 필수적임을 강조합니다.