Sign In

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models

Created by
  • Haebom
Category
Empty

저자

Zejun Li, Ruipu Luo, Jiwen Zhang, Minghui Qiu, Xuanjing Huang, Zhongyu Wei

개요

본 논문은 대규모 다중 모달 모델(LMMs)의 복잡한 작업 처리 능력 제한을 해결하기 위해, 다단계 시각 기반 객체 중심 사고 연쇄 추론 프레임워크인 VoCoT를 제안합니다. VoCoT는 객체 중심 추론 경로와 시각 기반 다중 모달 객체 개념 표현을 특징으로 하며, 장기 생성 과정에서 모달 간 차이를 효과적으로 해소합니다. LMMs의 VoCoT 적용을 위해 instruction-tuning 데이터셋을 구축하고, 7B 파라미터의 VoCoT 기반 모델 VolCano를 개발했습니다. VolCano는 CLEVR 및 EmbSpatial과 같은 복잡한 추론 능력을 요구하는 벤치마크에서 GPT-4V를 포함한 최첨단 모델들을 능가하는 성능을 보여줍니다. 관련 코드, 데이터 및 모델은 깃허브에서 공개됩니다.

시사점, 한계점

시사점:
LMMs의 복잡한 추론 능력 향상에 기여하는 새로운 프레임워크 VoCoT 제시
객체 중심 추론과 시각 기반 다중 모달 표현을 통해 모달 간 차이 해소
제한된 파라미터와 입력 해상도에도 불구하고 최첨단 성능 달성
관련 코드, 데이터 및 모델 공개를 통한 연구 재현성 및 확장성 증대
한계점:
VoCoT 프레임워크의 일반화 능력에 대한 추가적인 검증 필요
다양한 유형의 복잡한 작업에 대한 VolCano의 성능 평가 추가 필요
instruction-tuning 데이터셋의 규모 및 질에 대한 추가적인 분석 필요
👍