Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

Created by
  • Haebom
Category
Empty

저자

Eun Chang, Zhuangqun Huang, Yiwei Liao, Sagar Ravi Bhavsar, Amogh Param, Tammy Stark, Adel Ahmadyan, Xiao Yang, Jiaqi Wang, Ahsan Abdullah, Giang Nguyen, Akil Iyer, David Hall, Elissa Li, Shane Moon, Nicolas Scheffer, Kirmani Ahmed, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Xin Luna Dong

WearVQA: 웨어러블 장치에서의 시각 질의 응답 벤치마크

개요:
본 논문은 스마트 안경과 같은 웨어러블 장치에서 멀티모달 AI 어시스턴트의 시각 질의 응답(VQA) 능력을 평가하기 위해 특별히 설계된 최초의 벤치마크인 WearVQA를 소개합니다. WearVQA는 고품질의 제3자 시점 이미지를 사용하는 기존 벤치마크와 달리, 시각적 입력이 가려지거나, 조명이 좋지 않거나, 줌이 되지 않거나, 흐릿할 수 있는 자아 중심적 상호 작용의 고유한 과제를 반영합니다. 이 벤치마크는 7가지 다양한 이미지 도메인, 10가지 인지 작업 유형, 6가지 웨어러블 관련 이미지 품질 문제에 걸쳐 2,520개의 신중하게 큐레이션된 이미지-질문-답변 삼중항으로 구성됩니다. 모든 질문은 시각적 입력과 상식을 사용하여 답할 수 있도록 설계되었습니다. WearVQA는 96%의 라벨링 정확도를 가진 엄격한 LLM-as-a-judge 평가 프레임워크와 함께 제공됩니다. 오픈 소스 및 독점 멀티모달 LLM은 WearVQA에서 24-52%의 낮은 QA 정확도를 보였으며, 저품질 이미지와 추론이 많이 필요한 작업에서 상당한 성능 저하를 보였습니다. 이러한 관찰 결과는 WearVQA가 강력하고 실제적인 멀티모달 웨어러블 AI 시스템을 향한 기술 발전을 이끄는 포괄적이고 도전적인 벤치마크임을 보여줍니다.
시사점, 한계점:
시사점:
웨어러블 장치에서의 VQA 능력 평가를 위한 새로운 벤치마크 제시.
실제 웨어러블 사용 시나리오를 반영하여 자아 중심적 상호작용의 특징적인 어려움을 강조.
다양한 이미지 도메인, 인지 작업 유형, 이미지 품질 문제를 포함하여 벤치마크의 포괄성 확보.
LLM-as-a-judge 평가 프레임워크를 통해 객관적인 평가 기준 마련.
오픈 소스 및 독점 LLM의 낮은 성능을 통해 향후 기술 발전의 필요성을 제시.
한계점:
벤치마크의 성능 평가가 특정 LLM에 의존적일 수 있음.
7가지 이미지 도메인과 10가지 인지 작업 유형이 모든 웨어러블 사용 사례를 완벽하게 대표하지 못할 수 있음.
2,520개의 이미지-질문-답변 삼중항이 충분한 규모인지 추가적인 검토 필요.
웨어러블 장치 관련 하드웨어 및 사용자 인터페이스의 특성을 직접적으로 고려하지 않음.
👍