Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Interleaved-Modal Chain-of-Thought

Created by
  • Haebom
Category
Empty

저자

Jun Gao, Yongqi Li, Ziqiang Cao, Wenjie Li

개요

본 논문은 시각 언어 모델(VLMs)에서 사고 과정(Chain-of-Thought, CoT) 프롬프팅의 성능 향상을 위한 새로운 방법인 Interleaved-modal Chain-of-Thought (ICoT)를 제안합니다. 기존의 CoT 프롬프팅은 텍스트 기반 추론만으로는 시각 정보와의 미묘한 연관성을 표현하는 데 어려움이 있었으나, ICoT는 시각적 및 텍스트적 추론 단계를 쌍으로 생성하여 이 문제를 해결합니다. 이를 위해 기존 VLMs에 적용 가능한 플러그 앤 플레이 전략인 Attention-driven Selection (ADS)을 제안합니다. ADS는 VLMs의 어텐션 맵을 이용하여 입력 이미지의 특정 영역을 추론 과정에 지능적으로 삽입하며, 추가적인 지연 시간 없이 interleaved-modal reasoning steps을 생성합니다. 두 가지 다른 아키텍처의 VLMs에 ADS를 적용하여 세 가지 벤치마크에서 기존의 다중 모달 CoT 프롬프팅 방법에 비해 최대 14%의 성능 향상과 해석력 향상을 달성했습니다.

시사점, 한계점

시사점:
VLMs의 추론 과정을 향상시키는 새로운 프롬프팅 방법인 ICoT 제안.
기존 VLMs에 쉽게 적용 가능한 플러그 앤 플레이 전략인 ADS 제시.
세 가지 벤치마크에서 기존 방법 대비 성능 및 해석력 향상을 입증.
어텐션 맵 기반으로 추가적인 매개변수 없이 구현 가능.
한계점:
ADS의 성능은 VLMs의 어텐션 맵의 질에 의존적일 수 있음.
특정 VLMs 아키텍처에 대한 일반화 가능성에 대한 추가적인 연구 필요.
다양한 유형의 시각 자료에 대한 일반화 성능 검증 필요.
👍