Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Chain of Questions: Guiding Multimodal Curiosity in Language Models

Created by
  • Haebom

저자

Nima Iji, Kia Dashtipour

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 다중 모달 상황에서의 질문 생성 기반 추론 프레임워크인 Chain of Questions (CoQ)를 제시합니다. CoQ는 모델이 주변 환경에 대한 질문을 생성하고, 이를 통해 필요한 감각 모달리티(시각, 청각, 공간 인지 등)를 선택적으로 활성화하여 정확한 추론 및 응답 생성에 필요한 정보를 수집하도록 유도합니다. WebGPT, ScienceQA, AVSD, ScanQA 데이터셋을 통합하여 구성한 새로운 다중 모달 벤치마크 데이터셋을 사용하여 평가한 결과, CoQ는 기반 모델의 관련 감각 정보 식별 및 통합 능력을 향상시켜 정확도, 해석성 및 다양한 다중 모달 작업과의 정합성을 높이는 것으로 나타났습니다.

시사점, 한계점

시사점:
다중 모달 LLM의 추론 능력 향상을 위한 새로운 프레임워크인 CoQ 제시
질문 생성을 통해 필요한 감각 정보를 선택적으로 활용하여 추론 효율성 증대
다양한 다중 모달 작업에서의 정확도, 해석성 및 정합성 향상
새로운 다중 모달 벤치마크 데이터셋 제시
한계점:
제시된 벤치마크 데이터셋의 범용성 및 확장성에 대한 추가적인 검증 필요
CoQ 프레임워크의 다양한 다중 모달 환경 및 작업에 대한 일반화 성능 평가 필요
질문 생성 과정의 효율성 및 계산 비용에 대한 추가적인 분석 필요
👍