Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

Created by
  • Haebom

저자

Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee

개요

본 논문은 기존의 이미지 캡션 생성 모델들이 문법적, 의미적 변형에 치중하는 것과 달리, 인간이 작성한 캡션은 시각적 설명과 더불어 중심 메시지를 전달하는 데 pragmatics (언어 사용의 실용적 측면)을 활용한다는 점에 주목합니다. 따라서 다양한 캡션을 생성하기 위해서는 시각적 콘텐츠와 함께 메시지를 전달하는 대안적인 방법을 탐구해야 합니다. 이를 위해 본 논문은 다중 모달 대규모 언어 모델(MLLM)을 위한 새로운 프롬프팅 전략인 RONA를 제안합니다. RONA는 일관성 관계(Coherence Relations)를 활용하여 pragmatics적 변화를 제어 가능한 축으로 사용합니다. 실험 결과, RONA는 여러 도메인에서 MLLM 기준 모델보다 전반적인 다양성과 정답과의 일치도가 더 높은 캡션을 생성하는 것으로 나타났습니다. 소스 코드는 공개되어 있습니다.

시사점, 한계점

시사점:
MLLM을 이용한 이미지 캡션 생성에서 pragmatics의 중요성을 강조하고, 이를 제어 가능한 변수로 활용하는 새로운 방법을 제시.
RONA를 통해 기존 모델보다 다양하고 정확한 이미지 캡션 생성 가능성을 보여줌.
다양한 도메인에서의 성능 검증을 통해 RONA의 일반화 가능성을 확인.
공개된 소스 코드를 통해 연구의 재현성과 확장성 확보.
한계점:
RONA의 성능 향상이 특정 데이터셋이나 도메인에 국한될 가능성.
일관성 관계 외 다른 pragmatics 요소를 고려하지 않아 다양성 제한이 있을 수 있음.
더욱 다양하고 복잡한 이미지에 대한 RONA의 성능 평가가 필요.
인간의 평가 기준에 대한 객관성 확보가 중요.
👍