Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

Created by
  • Haebom

저자

Chao Deng, Jiale Yuan, Pi Bu, Peijie Wang, Zhong-Zhi Li, Jian Xu, Xiao-Hui Li, Yuan Gao, Jun Song, Bo Zheng, Cheng-Lin Liu

개요

본 논문은 기존의 문서 이해 벤치마크들이 페이지 수 제한 및 레이아웃 요소 분석 부족이라는 한계를 지적하며, 장문 문서 이해, 수치 추론, 요소 간 위치 파악이라는 세 가지 주요 과제를 통합한 새로운 벤치마크인 LongDocURL을 제안합니다. LongDocURL은 20개의 하위 과제를 포함하며, 3만 3천 페이지 이상의 문서를 기반으로 2,325개의 고품질 질의응답 쌍을 반자동화 파이프라인을 통해 구축했습니다. 다양한 모델(오픈소스 및 클로즈드소스)에 대한 26가지 설정의 종합적인 평가 실험을 통해 현장의 성능 격차를 밝혀냅니다.

시사점, 한계점

시사점: 기존 벤치마크의 한계를 극복하는 새로운 장문 문서 이해 벤치마크 LongDocURL을 제시하여, 더욱 포괄적이고 다양한 문서 이해 모델 평가를 가능하게 함. 대규모 데이터셋을 활용하여 실제 응용 환경에 더욱 근접한 평가 결과 제공. 다양한 모델의 성능 비교를 통해 향후 연구 방향 제시.
한계점: 벤치마크 구축에 사용된 데이터셋의 편향성에 대한 분석 및 검토가 부족할 수 있음. 제시된 세 가지 주요 과제 외 다른 중요한 문서 이해 과제들을 고려하지 못했을 가능성. 평가 실험에 사용된 모델의 종류와 설정이 제한적일 수 있음.
👍