OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning
Created by
Haebom
저자
Mingxin Huang, Yongxin Shi, Dezhi Peng, Songxuan Lai, Zecheng Xie, Lianwen Jin
개요
본 논문은 다양한 시각적 추론 작업에서 뛰어난 성능을 보이는 다중 모달 느린 사고 시스템의 최근 발전에도 불구하고, 풍부한 텍스트 이미지 추론 작업에 대한 능력은 체계적인 벤치마크의 부족으로 인해 아직 연구가 부족함을 지적합니다. 이러한 간극을 해결하기 위해, 본 논문에서는 풍부한 텍스트 이미지 추론 작업에 대한 다중 모달 대규모 언어 모델(MLLM)을 체계적으로 평가하도록 설계된 포괄적인 벤치마크인 OCR-Reasoning을 제안합니다. OCR-Reasoning은 풍부한 텍스트 시각적 시나리오에서 6가지 핵심 추론 능력과 18가지 실용적 추론 작업에 걸쳐 1,069개의 사람이 주석을 단 예제로 구성됩니다. 기존의 풍부한 텍스트 이미지 이해 벤치마크가 최종 답변만 주석을 달았던 것과 달리, OCR-Reasoning은 추론 과정 또한 동시에 주석을 달아 모델의 최종 답변뿐만 아니라 추론 과정도 평가하여 문제 해결 능력을 전체적으로 분석할 수 있도록 합니다. 본 논문은 이 벤치마크를 활용하여 최첨단 MLLM을 포괄적으로 평가했으며, 기존 방법론의 한계를 보여주는 결과를 제시합니다. 특히, 최첨단 MLLM조차도 OCR-Reasoning에서 50%를 넘는 정확도를 달성하지 못하여 풍부한 텍스트 이미지 추론의 어려움이 시급히 해결해야 할 문제임을 시사합니다. 벤치마크와 평가 스크립트는 https://github.com/SCUT-DLVCLab/OCR-Reasoning 에서 확인할 수 있습니다.
시사점: 풍부한 텍스트 이미지 추론 작업을 위한 새로운 벤치마크 OCR-Reasoning 제시. 최종 답변뿐 아니라 추론 과정까지 평가하여 MLLM의 문제 해결 능력을 더욱 정확하게 분석 가능. 최첨단 MLLM의 성능 한계를 명확히 제시하여 향후 연구 방향 제시. 공개된 벤치마크를 통해 다양한 연구 활성화 기대.
•
한계점: 현재 벤치마크에 포함된 데이터셋의 규모가 추가적인 확장을 필요로 할 수 있음. 특정 유형의 추론 작업에 편향되어 있을 가능성 존재. 다양한 도메인과 언어에 대한 일반화 성능 평가가 추가적으로 필요.