Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual Segments

Created by
  • Haebom

저자

Aniket Bhattacharyya, Anurag Tripathi, Ujjal Das, Archan Karmakar, Amit Pathak, Maneesh Gupta

개요

시각적으로 풍부한 문서(VRD)에서 레이아웃 특징과 텍스트를 함께 사용하여 정보 추출(IE)하는 것은 중요하고 잘 연구된 과제입니다. 전문적인 비-LLM NLP 기반 솔루션은 일반적으로 텍스트 및 기하학적 정보를 모두 사용하여 모델을 훈련하여 시퀀스/토큰을 명명된 엔티티 또는 특정 질문에 대한 답변으로 레이블링합니다. 그러나 이러한 접근 방식은 추론이 부족하고 문서에 명시적으로 존재하지 않는 값을 추론할 수 없으며 새로운 형식으로 잘 일반화되지 않습니다. 최근 제안된 생성형 LLM 기반 접근 방식은 추론이 가능하지만, 특히 이전에 보지 못한 문서 형식에서 문서 레이아웃의 단서를 이해하는 데 어려움을 겪고 이종 VRD 벤치마크 데이터 세트에서 경쟁력 있는 성능을 보여주지 못합니다. 본 논문에서는 VRD를 독립적으로 처리되는 의미 블록이라는 지역화되고 재사용 가능한 의미 텍스트 세그먼트로 구성하는 새로운 LLM 기반 접근 방식인 BLOCKIE를 제안합니다. 집중적이고 더 일반화 가능한 추론을 통해, 본 연구의 접근 방식은 공개 VRD 벤치마크에서 최첨단 기술보다 F1 점수에서 1~3% 더 우수하며, 이전에 접해보지 못한 문서 형식에도 탄력적이고 문서에 명시적으로 존재하지 않는 정보를 정확하게 추출하는 능력을 보여줍니다.

시사점, 한계점

시사점:
기존의 비-LLM 기반 방법과 생성형 LLM 기반 방법의 한계를 극복하는 새로운 LLM 기반 VRD 정보 추출 방법 제시.
의미 블록을 활용하여 문서 레이아웃 정보를 효과적으로 활용하고, 다양한 문서 형식에 대한 일반화 성능 향상.
F1 점수에서 최첨단 성능을 1-3% 상회하는 성능 달성.
문서에 명시적으로 존재하지 않는 정보도 추론하여 추출 가능.
한계점:
제시된 방법의 성능 향상이 특정 벤치마크 데이터셋에 국한될 가능성.
더욱 다양하고 복잡한 레이아웃을 가진 문서에 대한 일반화 성능 검증 필요.
의미 블록 생성 및 처리 과정의 효율성 향상 필요.
👍