A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
Created by
Haebom
저자
Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
개요
본 논문에서는 문서 이해를 위한 새로운 Large Language Model(LLM) 기반 접근 방식인 LayTextLLM을 제시합니다. 기존 방법들이 OCR 추출 텍스트와 공간 레이아웃을 LLM에 통합하는 과정에서 긴 시퀀스 생성이나 LLM의 자동 회귀 특성을 충분히 활용하지 못하는 한계를 지적하며, LayTextLLM은 각 바운딩 박스를 단일 임베딩으로 투영하여 텍스트와 섞어(interleaving) 이러한 문제를 효과적으로 해결합니다. KIE(Knowledge Information Extraction)와 VQA(Visual Question Answering) 작업에서 기존 최고 성능의 OCR 기반 LLM 대비 각각 15.2%와 10.7%의 성능 향상을 보이며, GitHub에 모든 리소스를 공개했습니다.