Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Visual Text Grounding of Multimodal Large Language Model

Created by
  • Haebom

저자

Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각적 텍스트 기반 지정 능력, 특히 문서의 텍스트가 풍부한 이미지에 대한 능력의 한계를 다룹니다. 기존 벤치마크가 자연 이미지에 초점을 맞추고 문서 이미지(스캔된 양식, 인포그래픽 등)의 복잡한 레이아웃과 텍스트 콘텐츠를 충분히 고려하지 못하는 점을 지적하며, 문서 질의응답에서 MLLM의 텍스트가 풍부한 이미지 기반 지정 기능을 평가하고 개선하기 위한 새로운 과제 TRIG와 데이터셋을 제시합니다. 800개의 수동 주석 질의응답 쌍과 4개의 다양한 데이터셋을 기반으로 한 90k개의 합성 데이터를 사용하여 벤치마크 및 대규모 훈련 세트를 구성하고, 여러 MLLM을 평가하여 기존 모델의 한계를 보여줍니다. 또한 일반적인 지시어 미세 조정 및 플러그 앤 플레이 효율적인 임베딩을 기반으로 하는 두 가지 효과적인 TRIG 방법을 제안하고, 합성 데이터셋으로 MLLM을 미세 조정하여 공간 추론 및 기반 지정 기능을 향상시키는 결과를 보여줍니다.

시사점, 한계점

시사점:
문서 이미지에서의 시각적 텍스트 기반 지정에 대한 새로운 벤치마크인 TRIG 제시.
MLLM의 문서 이미지 이해 능력의 한계를 명확히 밝힘.
TRIG를 위한 효과적인 훈련 방법 및 모델 개선 방안 제시.
합성 데이터를 활용한 MLLM 성능 향상 가능성 제시.
한계점:
현재 벤치마크 데이터셋의 규모가 상대적으로 작을 수 있음 (800개의 수동 주석 데이터).
합성 데이터의 품질과 일반화 성능에 대한 추가적인 검증 필요.
제안된 방법의 다른 종류의 문서 이미지나 더 복잡한 질문에 대한 일반화 성능 평가 필요.
👍