The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

작성자

Haebom

카테고리

Empty

저자

Karan Goyal

💡 개요

본 논문은 현재 널리 사용되는 Vision-Language Model (VLM)이 시각 데이터를 충실하게 종합하지 못하고, 언어 사전 정보에 의존하여 시각 정보의 한계를 우회하는 "기능적 맹점" 문제를 지적합니다. 이를 해결하기 위해 데이터 제거 대신 의미 정보 전달을 통해 시각 정보의 가치를 측정하는 "Expense of Seeing" 개념과 새로운 평가 지표(Toll, Curse, Fallacy of Seeing, Semantic Sufficiency Criterion)를 제안합니다. 또한, 언어 모델이 발전할수록 시각 정보의 병목 현상으로 인한 페널티가 증가할 수 있다는 "Divergence Law of Multimodal Scaling" 가설을 제시하며, 향후 VLM 연구 방향을 진정한 멀티모달 추론으로 전환해야 함을 주장합니다.

🔑 시사점 및 한계

•

현재 VLM의 성능 평가 방식이 데이터 편향과 모델 구조적 한계를 구분하기 어렵다는 점을 명확히 했습니다.

•

제안된 "Expense of Seeing" 개념과 평가 지표들은 VLM의 시각 정보 활용 능력에 대한 더 깊이 있는 이해와 진단 기반을 제공합니다.

•

대규모 언어 모델 스케일링과 시각 정보 병목 현상 간의 잠재적 불균형에 대한 가설은 향후 VLM 아키텍처 설계에 중요한 고려사항을 제시합니다.

•

제안된 평가 프레임워크를 실제 VLM 아키텍처 설계에 적용하고 검증하는 연구가 필요합니다.

PDF 보기

Made with Slashpage