Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?

Created by
  • Haebom

저자

Haolong Yan, Kaijun Tan, Yeqing Shen, Xin Huang, Zheng Ge, Xiangyu Zhang, Si Li, Daxin Jiang

개요

본 논문은 대규모 비전-언어 모델(LVLMs)이 문서 내 이미지-텍스트의 혼합된 내용을 실제로 이해하는지에 대한 중요하지만 충분히 연구되지 않은 문제를 조사합니다. 기존의 문서 이해 벤치마크는 정보가 부족하고 장거리 의존성의 포괄성을 보장하기 어려운 질문-응답 형식을 사용하여 LVLMs를 평가하는 경우가 많습니다. 이 문제를 해결하기 위해, 본 논문은 고품질 arXiv 논문 500편과 인간 선호도에 맞춰 정렬된 혼합된 다중 모드 요약을 포함하는 새로운 도전적인 다중 모드 문서 요약 벤치마크(M-DocSum-Bench)를 제시합니다. M-DocSum-Bench는 참조 기반 생성 작업이며, 제공된 참조 이미지를 사용하여 이미지-텍스트 요약을 생성해야 하므로 복잡한 다중 모드 문서 시나리오에서 이해, 추론, 현지화 및 요약 기능을 동시에 평가합니다. 이 벤치마크를 용이하게 하기 위해, 요약을 구성하는 자동화된 프레임워크를 개발하고 M-DocEval이라는 세분화된 평가 방법을 제안합니다. 또한, 다양한 지시 및 선호도 데이터를 사용한 점진적인 2단계 학습을 통해 강력한 요약 기준 모델인 M-DocSum-7B를 개발합니다. M-DocSum-Bench에 대한 광범위한 결과는 최고의 LVLMs조차도 길고 혼합된 맥락에서 일관성을 유지하고 정보를 정확하게 통합하는 데 어려움을 겪고, 종종 유사한 이미지 간에 혼란을 보이고 강력하지 못함을 보여줍니다. 특히, M-DocSum-7B는 GPT-4o, Gemini Pro, Claude-3.5-Sonnet 및 Qwen2.5-VL-72B 등 더 크고 폐쇄된 소스 모델과 비교하여 최첨단 성능을 달성하여 개선된 혼합된 이미지-텍스트 이해를 위한 LVLMs의 잠재력을 보여줍니다. 코드, 데이터 및 모델은 https://github.com/stepfun-ai/M-DocSum-Bench에서 사용할 수 있습니다.

시사점, 한계점

시사점:
새로운 다중 모드 문서 요약 벤치마크(M-DocSum-Bench)를 제시하여 LVLMs의 혼합된 이미지-텍스트 이해 능력을 종합적으로 평가.
M-DocSum-7B 모델이 기존 최고 성능의 대규모 모델들을 능가하는 성능을 달성, LVLMs의 발전 가능성을 제시.
자동화된 요약 생성 프레임워크 및 세분화된 평가 방법(M-DocEval) 개발.
장거리 의존성과 다중 모드 정보 통합에 대한 LVLMs의 한계점을 명확히 제시.
한계점:
M-DocSum-Bench는 arXiv 논문에 국한되어 일반화 가능성에 대한 추가 연구 필요.
현재 벤치마크의 규모(500개 논문)가 더욱 확장될 필요가 있음.
M-DocSum-7B 모델의 성능 향상에도 불구하고, 여전히 혼합된 맥락에서의 일관성 유지 및 정보 통합에 어려움을 보임.
인간 선호도에 기반한 평가 방식의 주관성을 고려해야 함.
👍