Towards Visual Text Grounding of Multimodal Large Language Model
Created by
Haebom
저자
Ming Li, Ruiyi Zhang, Jian Chen, Chenguang Wang, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 시각적 텍스트 기반 지정 능력, 특히 문서 이미지에서의 한계를 다룹니다. 기존 벤치마크가 자연 이미지에 집중하는 것과 달리, 스캔된 양식이나 정보 그래픽과 같은 텍스트가 풍부한 문서 이미지의 복잡한 레이아웃과 텍스트 내용에 초점을 맞춰 새로운 벤치마크 작업인 TRIG를 제시합니다. 800개의 수동 주석 질의응답 쌍과 4개의 다양한 데이터셋을 기반으로 생성된 90k개의 합성 데이터를 포함하는 새로운 지침 데이터셋을 사용하여 MLLM의 텍스트가 풍부한 이미지 기반 지정 능력을 평가하고 개선합니다. 또한 일반 지침 미세 조정 및 플러그 앤 플레이 효율적인 임베딩을 기반으로 하는 두 가지 효과적인 TRIG 방법을 제안하며, 합성 데이터셋으로 MLLM을 미세 조정하여 공간 추론 및 기반 지정 기능을 향상시킵니다.
시사점, 한계점
•
시사점:
◦
텍스트가 풍부한 문서 이미지에 대한 시각적 텍스트 기반 지정의 어려움을 명확히 제시하고 새로운 벤치마크인 TRIG를 통해 이를 해결하려는 시도.
◦
OCR-LLM-인간 상호 작용 파이프라인을 통한 데이터셋 생성 방법 제시.
◦
제안된 TRIG 방법을 통해 MLLM의 공간 추론 및 기반 지정 능력 향상 가능성을 보여줌.
◦
기존 MLLM의 문서 이미지 이해 능력의 한계를 명확하게 드러냄으로써 향후 연구 방향 제시.
•
한계점:
◦
제시된 합성 데이터셋의 규모(90k)가 실제 세계의 다양성을 완벽하게 반영하지 못할 가능성.