ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models
Created by
Haebom
저자
Benjamin Clavie, Florian Brand
개요
본 논문은 대규모 비전-언어 모델(VLMs)의 텍스트가 풍부한 이미지에 대한 읽기 및 추론 능력 평가를 위한 새로운 벤치마크인 ReadBench를 제시합니다. ReadBench는 기존의 텍스트 전용 벤치마크의 문맥을 텍스트 이미지로 변환하여 텍스트 프롬프트와 질문은 그대로 유지합니다. 선도적인 VLMs를 ReadBench로 평가한 결과, 짧은 텍스트-이미지 입력에서는 성능 저하가 거의 없었지만, 긴 다 페이지 문맥에서는 성능이 크게 저하되는 것을 발견했습니다. 실험을 통해 텍스트 해상도는 다중 모드 성능에 미미한 영향을 미치는 것으로 나타났습니다. 이러한 결과는 VLMs, 특히 광범위한 시각적 텍스트 콘텐츠에 대한 추론 능력 향상의 필요성을 강조하며, 이는 실제 응용 프로그램에 중요한 기능입니다. ReadBench는 https://github.com/answerdotai/ReadBench 에서 이용 가능합니다.
시사점, 한계점
•
시사점: VLMs의 텍스트가 풍부한 이미지에 대한 읽기 및 추론 능력 평가를 위한 새로운 벤치마크 ReadBench를 제공합니다. VLMs의 긴 텍스트 처리 능력의 한계를 명확히 보여줍니다. 실제 응용 프로그램을 위한 VLMs의 향상 방향을 제시합니다.
•
한계점: 현재 ReadBench는 텍스트 해상도의 영향이 미미한 것으로 나타났지만, 다양한 폰트, 이미지 품질, 레이아웃 등 다른 요소들의 영향에 대한 추가 연구가 필요합니다. 벤치마크의 범위가 제한적일 수 있으며, 더 다양한 유형의 텍스트 이미지와 질문을 포함하도록 확장할 필요가 있습니다.