Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems
Created by
Haebom
저자
Jie Zhang, Ting Xu, Gelei Deng, Runyi Hu, Han Qiu, Tianwei Zhang, Qing Guo, Ivor Tsang
개요
본 논문은 고급 비전 언어 모델(VLMs)이 인간처럼 파편화되거나 겹쳐진 글자를 인식하는 능력을 갖추고 있는지 조사합니다. 중국어 표의 문자와 영어 알파벳 단어를 사용하여 심리 물리학에서 영감을 받은 두 가지 벤치마크를 구축했습니다. 글자를 조합하고 겹쳐서 인간에게는 읽을 수 있지만 모델에게는 "보이지만 읽을 수 없는" 자극을 만듭니다. 실험 결과, VLMs는 깨끗한 텍스트에서는 높은 성능을 보였지만, 이러한 변형이 가해지면 성능이 크게 저하되고, 관련이 없거나 일관성 없는 결과를 생성하는 것으로 나타났습니다. 이는 모델이 일반적인 시각적 불변성에 크게 의존하지만 견고한 읽기 능력에 필요한 구성 사전 정보에는 충분히 의존하지 않는 구조적 한계를 시사합니다. 본 논문은 자극 생성 코드, 프롬프트 및 평가 프로토콜을 공개하여 투명한 복제 및 후속 연구를 촉진합니다.
시사점, 한계점
•
시사점:
◦
VLMs의 구조적 한계를 밝힘: 일반적인 시각적 불변성에 대한 과도한 의존과 구성 사전 정보의 부족.
◦
교육, 접근성, 문화유산 및 보안 분야에서 다중 모달 시스템 배포에 대한 구체적인 과제 제시.
◦
스크립트 간 기호 분할, 구성 및 바인딩을 인코딩하는 아키텍처 및 교육 전략 필요성 제시.
◦
공개된 코드, 프롬프트 및 평가 프로토콜을 통한 투명한 연구 및 재현성 확보.
•
한계점:
◦
본 연구는 특정 언어 시스템(중국어 표의 문자와 영어 알파벳)에 국한됨. 다른 언어 시스템으로의 일반화 가능성에 대한 추가 연구 필요.