본 논문은 복잡한 상황에서 다중 지각 입력을 결합하고 조합적 추론을 수행하는 인간의 정교한 인지 기능을 다룹니다. 다중 모달 대규모 언어 모델의 발전으로 최근 벤치마크는 여러 이미지에 걸친 시각적 이해를 평가하는 경향이 있지만, 여러 지각 정보에 대한 조합적 추론의 필요성을 종종 간과합니다. 복잡한 상황에서 조합적 추론을 위한 다중 지각 입력 통합 능력을 탐구하기 위해, 시각적 이해 및 종합을 평가하는 세 가지 작업 유형을 갖춘 Clue-Visual Question Answering (CVQA)와 시각 데이터의 정확한 해석 및 적용에 중점을 둔 두 가지 작업 유형을 갖춘 Clue of Password-Visual Question Answering (CPVQA)라는 두 가지 벤치마크를 제시합니다. 세 가지 플러그 앤 플레이 방식(모델 입력을 추론에 활용, 랜덤 생성을 통한 최소 마진 디코딩으로 추론 향상, 의미적으로 관련된 시각 정보 검색을 통한 효과적인 데이터 통합)을 제시하고, 이를 통해 최첨단 모델조차도 조합적 추론 벤치마크에서 부족한 성능을 보임을 확인합니다 (CVQA에서 33.04%, CPVQA에서 7.38%). 제안된 접근 방식은 최첨단 모델 대비 CVQA에서 22.17%, CPVQA에서 9.40% 성능 향상을 보이며, 복잡한 상황에서 다중 지각 입력을 사용한 조합적 추론 향상에 효과적임을 보여줍니다. 코드는 공개될 예정입니다.