Towards Visual Text Grounding of Multimodal Large Language Model
Created by
Haebom
저자
Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각적 텍스트 기반 지정 능력, 특히 문서의 텍스트가 풍부한 이미지에 대한 능력의 한계를 다룹니다. 기존 벤치마크가 자연 이미지에 초점을 맞추고 문서 이미지(스캔된 양식, 인포그래픽 등)의 복잡한 레이아웃과 텍스트 콘텐츠를 충분히 고려하지 못하는 점을 지적하며, 문서 질의응답에서 MLLM의 텍스트가 풍부한 이미지 기반 지정 기능을 평가하고 개선하기 위한 새로운 과제 TRIG와 데이터셋을 제시합니다. 800개의 수동 주석 질의응답 쌍과 4개의 다양한 데이터셋을 기반으로 한 90k개의 합성 데이터를 사용하여 벤치마크 및 대규모 훈련 세트를 구성하고, 여러 MLLM을 평가하여 기존 모델의 한계를 보여줍니다. 또한 일반적인 지시어 미세 조정 및 플러그 앤 플레이 효율적인 임베딩을 기반으로 하는 두 가지 효과적인 TRIG 방법을 제안하고, 합성 데이터셋으로 MLLM을 미세 조정하여 공간 추론 및 기반 지정 기능을 향상시키는 결과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
문서 이미지에서의 시각적 텍스트 기반 지정에 대한 새로운 벤치마크인 TRIG 제시.
◦
MLLM의 문서 이미지 이해 능력의 한계를 명확히 밝힘.
◦
TRIG를 위한 효과적인 훈련 방법 및 모델 개선 방안 제시.
◦
합성 데이터를 활용한 MLLM 성능 향상 가능성 제시.
•
한계점:
◦
현재 벤치마크 데이터셋의 규모가 상대적으로 작을 수 있음 (800개의 수동 주석 데이터).