Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Created by

Haebom

저자

Zhuoyan Xu, Haoyang Fang, Boran Han, Bonan Min, Bernie Wang, Cuixiong Hu, Shuai Zhang

💡 개요

본 연구는 실제 환경에서 이미지 형태로 존재하는 테이블 데이터의 검색 및 이해에 대한 어려움을 해결하고자 합니다. 제안하는 TabRAG 프레임워크는 시각-텍스트 기반 모델을 활용하여 후보 테이블을 검색하고, 멀티모달 대형 언어 모델(MLLM)을 통해 후보 테이블의 순위를 재조정하며, 최종적으로 선택된 테이블을 기반으로 답변을 생성하는 3단계 접근 방식을 사용합니다. 이를 통해 대규모 테이블 이미지 컬렉션에서도 사용자 질의에 대한 정확한 답변 생성이 가능함을 입증했습니다.

🔑 시사점 및 한계

•

이미지 기반 테이블 데이터에 대한 효과적인 검색 및 이해를 가능하게 하는 실용적인 프레임워크를 제시합니다.

•

기존 방법론 대비 검색 정확도와 답변 정확도를 크게 향상시켜 실제 응용 가능성을 높입니다.

•

대규모 데이터셋 구축 및 실험을 통해 제안 방법론의 우수성을 객관적으로 검증했습니다.

•

향후 연구에서는 더 복잡한 테이블 구조와 다양한 문서 형태에 대한 처리 능력 강화, 실시간 검색 성능 향상 등을 고려할 수 있습니다.

PDF 보기

Made with Slashpage