본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 다중 모달 상황에서의 질문 생성 기반 추론 프레임워크인 Chain of Questions (CoQ)를 제시합니다. CoQ는 모델이 주변 환경에 대한 질문을 생성하고, 이를 통해 필요한 감각 모달리티(시각, 청각, 공간 인지 등)를 선택적으로 활성화하여 정확한 추론 및 응답 생성에 필요한 정보를 수집하도록 유도합니다. WebGPT, ScienceQA, AVSD, ScanQA 데이터셋을 통합하여 구성한 새로운 다중 모달 벤치마크 데이터셋을 사용하여 평가한 결과, CoQ는 기반 모델의 관련 감각 정보 식별 및 통합 능력을 향상시켜 정확도, 해석성 및 다양한 다중 모달 작업과의 정합성을 높이는 것으로 나타났습니다.