시각적으로 풍부한 문서(VRD)에서 레이아웃 특징과 텍스트를 함께 사용하여 정보 추출(IE)하는 것은 중요하고 잘 연구된 과제입니다. 전문적인 비-LLM NLP 기반 솔루션은 일반적으로 텍스트 및 기하학적 정보를 모두 사용하여 모델을 훈련하여 시퀀스/토큰을 명명된 엔티티 또는 특정 질문에 대한 답변으로 레이블링합니다. 그러나 이러한 접근 방식은 추론이 부족하고 문서에 명시적으로 존재하지 않는 값을 추론할 수 없으며 새로운 형식으로 잘 일반화되지 않습니다. 최근 제안된 생성형 LLM 기반 접근 방식은 추론이 가능하지만, 특히 이전에 보지 못한 문서 형식에서 문서 레이아웃의 단서를 이해하는 데 어려움을 겪고 이종 VRD 벤치마크 데이터 세트에서 경쟁력 있는 성능을 보여주지 못합니다. 본 논문에서는 VRD를 독립적으로 처리되는 의미 블록이라는 지역화되고 재사용 가능한 의미 텍스트 세그먼트로 구성하는 새로운 LLM 기반 접근 방식인 BLOCKIE를 제안합니다. 집중적이고 더 일반화 가능한 추론을 통해, 본 연구의 접근 방식은 공개 VRD 벤치마크에서 최첨단 기술보다 F1 점수에서 1~3% 더 우수하며, 이전에 접해보지 못한 문서 형식에도 탄력적이고 문서에 명시적으로 존재하지 않는 정보를 정확하게 추출하는 능력을 보여줍니다.