Fine-Grained Vision-Language Modeling for Multimodal Training Assistants in Augmented Reality
Created by
Haebom
저자
Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Pablo Cesar, Chuang Yu, Zhaochun Ren, Junxiao Wang
개요
본 논문은 증강현실(AR) 교육에 적용 가능한 시각-언어 모델(VLMs)의 성능을 평가하기 위해 체계적인 시각-언어 작업을 포함하는 종합적인 데이터셋을 제시합니다. 9개의 최첨단 VLMs (GPT-4o 포함)을 해당 데이터셋으로 평가한 결과, 미세한 조립 작업에서의 성능이 낮음을 확인하였습니다 (예: 상태 감지에서 최대 F1 점수 40.54%). 이는 향상된 데이터셋, 벤치마크 및 미세한 시각-언어 정렬 개선을 위한 추가 연구의 필요성을 강조합니다. 본 연구는 시각 장애인의 AI 기반 학습 기회 접근성 향상이라는 사회적 의미도 지닙니다. 데이터셋, 소스 코드, 평가 결과 등 관련 모든 자료를 공개합니다.