Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

Created by
  • Haebom

저자

Yuwen Tan, Yuan Qing, Boqing Gong

개요

본 논문은 최첨단 대규모 언어 모델(LLM)들이 시각적 세계에 대한 계층적 지식이 부족하며, 잘 확립된 생물 분류 체계조차 인식하지 못한다는 것을 밝힙니다. 이러한 단점으로 인해 LLM은 시각 LLM의 계층적 시각적 이해(예: 말미잘을 인식하지만 척추동물은 인식하지 못함)의 병목 현상을 야기합니다. 연구진은 6개의 분류 체계와 4개의 이미지 데이터 세트를 기반으로 약 100만 개의 4지 선다형 시각적 질문 응답(VQA) 작업을 사용하여 이러한 결과를 얻었습니다. 흥미롭게도, VQA 작업을 사용하여 시각 LLM을 미세 조정하면 시각 LLM보다 LLM의 계층적 일관성이 더 향상되어 LLM의 병목 현상 효과를 어느 정도 재확인합니다. 연구진은 LLM이 해당 분류 체계 지식을 갖추기 전까지는 시각 LLM이 시각적 개념을 완전히 계층적으로 이해할 수 없을 것이라고 추측합니다.

시사점, 한계점

시사점: 대규모 언어 모델의 계층적 지식 부족이 시각적 이해에 제한을 가한다는 것을 보여줌으로써, 시각-언어 모델 개발에 중요한 시사점을 제공합니다. LLM의 계층적 지식 향상이 시각 LLM의 성능 향상에 필수적임을 시사합니다. VQA 작업을 통한 미세 조정이 LLM의 계층적 일관성 향상에 효과적임을 보여줍니다.
한계점: 본 연구는 특정 분류 체계와 이미지 데이터 세트에 국한되어 일반화 가능성에 대한 검토가 필요합니다. LLM의 계층적 지식 향상을 위한 구체적인 방법론 제시는 부족합니다. "완전히 계층적으로 이해할 수 없을 것"이라는 추측은 추가적인 연구를 통해 검증되어야 합니다.
👍