멀티 모달 대규모 언어 모델(MLLM)은 다중 이미지 컨텍스트에서 미세한 세분성의 부족과 여러 시각적 입력에서 정보를 효과적으로 추론하고 합성하는 능력 감소라는 두 가지 주요 문제에 직면합니다. 기존의 프롬프트 방식은 단일 이미지 설정이나 특정 시나리오에 중점을 두어, MLLM이 일반적이고 복잡한 다중 이미지 추론 작업을 어떻게 처리하는지에 대한 이해에 중요한 격차가 존재합니다. 본 연구에서는 기존 프롬프트 방식이 다중 이미지 처리 시 미세한 시각적 세부 사항을 인식하고 정보를 처리하는 방식을 조사합니다. 연구 결과에 영감을 받아, 임의의 수의 이미지를 처리할 수 있는 새로운 제로샷 프롬프트 방식인 Question-Guided Chain-of-Captions(QG-CoC)를 제안합니다. 다양한 오픈 소스 및 클로즈 소스 MLLM에 대해 다중 이미지 및 단일 이미지 벤치마크를 사용하여 QG-CoC를 평가한 결과, 기존 프롬프트 방식이 실패하는 어려운 시나리오에서 경쟁력 있는 성능과 강력한 개선을 보였습니다.