Sign In

Can We Talk Models Into Seeing the World Differently?

Created by
  • Haebom
Category
Empty

저자

Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, M. Jehanzeb Mirza, Margret Keuper, Janis Keuper

개요

본 논문은 시각 언어 모델(VLMs)에서의 텍스처 대 형태 편향 및 국소 정보의 우세와 같은 시각 전용 편향을 조사합니다. VLMs는 시각 인코더와 대규모 언어 모델(LLM)을 결합하여 언어 프롬프팅을 통해 시각 콘텐츠에 접근하는 직관적인 방법을 제공하지만, LLM과 시각 인코더 모두 고유한 편향, 큐 선호도 및 지름길을 가지고 있습니다. 본 연구는 이러한 편향이 다중 모드 융합에서 어떻게 작용하는지 조사하여, VLMs가 시각 인코더로부터 편향을 어느 정도 상속받는다는 것을 발견했습니다. 흥미롭게도 다중 모달리티 자체가 모델 동작에 중요한 영향을 미치며, 언어 기반 학습이 모델의 시각적 인식에 직접적인 영향을 미친다는 것을 보여줍니다. VLMs는 일반적인 시각 인코더와 달리 형태 정보를 기반으로 객체를 인식하는 경향이 있지만, 언어 프롬프트를 통한 형태 기반 분류로의 적극적인 조정은 제한적입니다. 반대로, 간단한 자연어 프롬프트를 통한 텍스처 기반 의사 결정으로의 적극적인 조정은 더 성공적입니다.

시사점, 한계점

시사점:
VLMs가 시각 인코더의 편향을 상속받지만, 다중 모달리티 융합이 모델의 시각적 인식에 영향을 미친다는 것을 밝힘.
언어 프롬프트를 통해 VLMs의 출력을 특정 시각적 단서에 맞춰 조정하는 것이 가능하지만, 그 효과는 단서의 종류에 따라 다름 (텍스처 기반 조정이 형태 기반 조정보다 용이함).
VLMs는 일반적인 시각 인코더와 달리 형태 정보에 기반하여 객체를 인식하는 경향이 있음.
한계점:
언어 프롬프트를 통한 VLMs의 시각적 인식 조정에 대한 연구는 초기 단계이며, 더 많은 연구가 필요함.
특정 시각적 단서에 대한 VLMs의 출력 조정의 효율성을 높이는 방법에 대한 추가 연구가 필요함.
👍