본 논문은 인간-컴퓨터 상호작용(HCI), 심리학, 인지과학의 맥락에서 AI 증강 추론 연구를 진전시키며, 시각적 지각이라는 중요한 과제에 초점을 맞추고 있습니다. 특히, 다중 모드 대규모 언어 모델(MLLM)의 이 영역에서의 적용 가능성을 조사합니다. 인간의 시각적 지각의 복잡성과 관련된 심리학 및 인지과학의 확립된 원칙과 설명을 활용하여 MLLM이 시각적 콘텐츠를 비교하고 해석하도록 안내합니다. 시각적 지각과 관련된 다양한 설명 가능성 원칙에 걸쳐 MLLM의 성능을 벤치마킹하는 것을 목표로 합니다. 최근 시각적 콘텐츠에서 복잡성 지표를 예측하기 위해 고급 심층 학습 모델을 주로 사용하는 접근 방식과 달리, 본 연구는 단순히 새로운 예측 모델을 개발하려는 것이 아닙니다. 대신, 시각적 지각을 사례 연구로 사용하여 HCI 작업에 대한 인지적 조력자로서 MLLM의 유용성을 평가하기 위한 새로운 주석 없는 분석 프레임워크를 제안합니다. 주된 목표는 인간의 추론 능력 향상 및 인간에 의해 주석된 기존 지각 데이터 세트의 편향을 발견하는 데 있어 MLLM의 해석 가능성을 정량화하고 평가하는 원칙적인 연구의 길을 열어주는 것입니다.