Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

Created by
  • Haebom
Category
Empty

저자

Jiyun Bae, Hyunjong Ok, Sangwoo Mo, Jaeho Lee

개요

본 논문은 시각-언어 모델(VLMs)에서 관련 없는 정보(방해 요소)가 시험 시간 규모에 미치는 영향을 연구합니다. 텍스트 방해 요소가 추론을 더 길게 만들지만 효과는 떨어뜨린다는 이전 연구 결과와 달리, 시각 방해 요소는 정확도를 감소시키면서 추론 길이를 증가시키지 않는다는 것을 발견했습니다. 이를 위해, 의미, 숫자, 공간적 차원에서 체계적으로 방해 요소를 변화시키는 시각 질문 응답 데이터세트 Idis를 소개합니다. 또한, 추론 과정에서 속성 수를 추적하는 것이 방해 요소, 추론 길이, 정확도 간의 상호 작용에 대한 중요한 통찰력을 제공한다는 것을 보여줍니다. 마지막으로, 이러한 경향이 Waterbirds와 같은 시각적 편향 벤치마크에도 적용되며, 추론 모델에서 편향으로 인한 예측을 완화하기 위한 간단한 프롬프트 전략을 제안합니다.

시사점, 한계점

시각 방해 요소는 텍스트 방해 요소와 다르게 VLMs에 영향을 미칩니다.
시각 방해 요소는 정확도를 감소시키지만, 텍스트 방해 요소와 달리 추론 길이를 늘리지 않습니다.
추론 과정에서 속성 수를 추적하면 방해 요소, 추론 길이 및 정확도 간의 상호 작용을 이해하는 데 도움이 됩니다.
제안된 프롬프트 전략은 편향된 예측을 완화할 수 있습니다.
연구는 Idis 데이터셋에 국한되어 있으며, 다른 데이터셋에서의 일반화 가능성을 추가적으로 검증해야 합니다.
제안된 프롬프트 전략의 효과는 다양한 모델 및 태스크에 대해 추가적으로 평가되어야 합니다.
👍