Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Multimodal Recaptioning Framework to Account for Perceptual Diversity Across Languages in Vision-Language Modeling

Created by
  • Haebom
Category
Empty

저자

Kyle Buettner, Jacob T. Emmerson, Adriana Kovashka

개요

본 논문은 이미지 캡셔닝 시 발생하는 지각적 편향 문제를 해결하기 위한 프레임워크를 제시한다. 영어 화자의 인식을 기반으로 작성된 캡션의 기계 번역에 의존하는 기존 모델의 한계를 극복하기 위해, 소량의 원어민 데이터, 최인접 이웃 예시 가이드, 그리고 멀티모달 LLM 추론을 활용하여 대상 언어의 캡션을 보강한다. 이 과정을 통해 독일어 및 일본어 텍스트-이미지 검색 성능을 향상시키고, 언어 간 객체 묘사 변화에 대한 이해를 구축하며, 데이터셋 및 언어 간 일반화에 대한 통찰력을 제공한다.

시사점, 한계점

시사점:
다국어 캡셔닝에서 지각적 편향 문제를 효과적으로 해결하는 프레임워크 제시
소량의 원어민 데이터와 LLM을 활용하여 번역 캡션의 품질을 향상시킴
독일어 및 일본어 텍스트-이미지 검색 성능 향상 입증
언어 간 객체 묘사 변화에 대한 이해를 높이는 메커니즘 제안
다양한 데이터셋과 언어 환경에서의 일반화 가능성 제시
한계점:
사용된 원어민 데이터의 양이 소량이라는 점
제안된 방법의 다른 언어 및 데이터셋에 대한 일반화 성능 추가 검증 필요
모델의 성능 향상 정도가 언어 및 데이터 특성에 따라 달라질 수 있음
멀티모달 LLM의 의존성이 존재하며, 이에 따른 계산 비용 및 접근성 문제 발생 가능성
👍