Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data

Created by
  • Haebom

저자

Samarth Mishra, Kate Saenko, Venkatesh Saligrama

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 조합적 추론 능력 향상을 위한 새로운 방법인 SCRAMBLe(Synthetic Compositional Reasoning Augmentation of MLLMs with Binary preference Learning)을 제시합니다. 기존 MLLM은 "개가 고양이를 쫓는다"와 "고양이가 개를 쫓는다"와 같은 조합을 구분하는 데 어려움을 겪는데, SCRAMBLe은 기존 이미지-캡션 데이터를 활용하여 합성 선호도 데이터를 생성하고, 이를 통해 모델이 올바른 캡션을 선호하도록 학습시킵니다. 실험 결과, SCRAMBLe은 다양한 시각 언어 조합성 벤치마크에서 성능을 크게 향상시켰으며, 일반적인 질문 응답 작업에서도 약간의 향상을 보였습니다. 예를 들어, Molmo-7B 모델의 Winoground 성능을 49.5%에서 54.8%로 향상시켰습니다. 코드, 튜닝된 모델, 그리고 합성 학습 데이터셋은 깃허브에 공개되어 있습니다.

시사점, 한계점

시사점:
MLLM의 조합적 추론 능력 향상을 위한 효과적인 방법 제시.
합성 데이터를 활용한 효율적인 학습 방식 제안.
Winoground 및 기타 시각 언어 조합성 벤치마크에서의 성능 향상 확인.
일반적인 질문 응답 작업에서의 성능 향상.
코드 및 데이터셋 공개를 통한 연구의 재현성 확보.
한계점:
합성 데이터에 의존하기 때문에 실제 데이터의 다양성을 완벽하게 반영하지 못할 가능성.
Winoground 성능 향상은 상대적으로 소폭.
일반 질문 응답 작업에서의 성능 향상이 미미함.
다른 MLLM 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
👍