Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

Created by
  • Haebom
Category
Empty

저자

Eun Chang, Zhuangqun Huang, Yiwei Liao, Sagar Ravi Bhavsar, Amogh Param, Tammy Stark, Adel Ahmadyan, Xiao Yang, Jiaqi Wang, Ahsan Abdullah, Giang Nguyen, Akil Iyer, David Hall, Elissa Li, Shane Moon, Nicolas Scheffer, Kirmani Ahmed, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Xin Luna Dong

개요

본 논문은 스마트 안경과 같은 웨어러블 기기에서 멀티 모델 AI 어시스턴트의 시각 질의 응답(VQA) 능력을 평가하기 위해 특별히 설계된 최초의 벤치마크인 WearVQA를 소개합니다. WearVQA는 고품질의 제3자 시각 이미지를 사용하는 기존 벤치마크와 달리, 가려지거나, 조명이 좋지 않거나, 확대되지 않았거나, 흐릿한 시각 입력과 현실적인 웨어러블 사용 사례를 기반으로 하는 질문 등 1인칭 상호 작용의 고유한 과제를 반영합니다. 이 벤치마크는 텍스트 중심 및 일반 장면을 포함한 7개의 다양한 이미지 도메인, 기본 인식부터 다양한 형태의 추론에 이르기까지 10가지 인지 작업 유형, 6가지 일반적인 웨어러블 관련 이미지 품질 문제를 포함하는 2,520개의 엄선된 이미지-질문-답변 삼중항으로 구성됩니다. WearVQA는 96%의 라벨링 정확도를 가진 엄격한 LLM-as-a-judge 평가 프레임워크와 함께 제공됩니다. 오픈 소스 및 독점 멀티 모델 LLM은 WearVQA에서 24-52%의 QA 정확도를 달성했으며, 저품질 이미지 및 추론 중심 작업에서 상당한 하락을 보였습니다.

시사점, 한계점

웨어러블 장치에서의 VQA 능력을 평가하기 위한 최초의 전용 벤치마크 제시.
1인칭 시점의 이미지 및 웨어러블 기기 사용 사례를 고려하여 현실적인 상황 반영.
저품질 이미지 및 추론 작업에서 AI 모델의 성능 저하를 확인, 개선 방향 제시.
오픈 소스 및 독점 LLM의 낮은 성능을 통해 벤치마크의 난이도 입증.
단일 벤치마크로 특정 모델의 일반화된 성능을 평가하기 어려울 수 있음.
실제 웨어러블 환경의 다양한 변동성을 완벽하게 포착하지 못할 수 있음.
모델 평가에 LLM을 활용하는 방식의 한계 (편향, 부정확성 등) 존재 가능성.
👍