[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results

Created by
  • Haebom

저자

Dawar Khan, Xinyu Liu, Omar Mena, Donggang Jia, Alexandre Kouyoumdjian, Ivan Viola

개요

본 논문은 확장 현실(XR) 기기에서 대규모 언어 모델(LLM)의 배포를 위한 포괄적인 평가 프레임워크인 AIvaluateXR을 제시합니다. Magic Leap 2, Meta Quest 3, Vivo X100s Pro, Apple Vision Pro 등 네 가지 XR 플랫폼에서 17개의 LLM을 배포하여 성능 일관성, 처리 속도, 메모리 사용량, 배터리 소모량 등 네 가지 주요 지표를 측정했습니다. 문자열 길이, 배치 크기, 스레드 수를 변경하며 각 모델-기기 조합(68개)의 성능을 평가하고, 실시간 XR 애플리케이션을 위한 트레이드오프를 분석했습니다. 3D 파레토 최적성 이론을 기반으로 최적의 기기-모델 조합을 선택하는 통합 평가 방법을 제안하고, 온디바이스 LLM과 클라이언트-서버 및 클라우드 기반 설정의 효율성을 비교하며 두 가지 대화형 작업에 대한 정확도를 평가했습니다. XR 기기에서 LLM 배포를 위한 향후 최적화 노력을 안내하는 데 귀중한 통찰력을 제공하며, 본 평가 방법은 이 신흥 분야의 추가 연구 및 개발을 위한 표준 기반으로 사용될 수 있습니다. 소스 코드와 보충 자료는 www.nanovis.org/AIvaluateXR.html에서 제공됩니다.

시사점, 한계점

시사점:
XR 기기에서 LLM 배포를 위한 포괄적인 평가 프레임워크 AIvaluateXR을 제공합니다.
다양한 XR 기기와 LLM에 대한 실험적 평가 결과를 제시하여 최적의 기기-모델 조합 선택에 대한 통찰력을 제공합니다.
온디바이스 LLM, 클라이언트-서버, 클라우드 기반 설정의 효율성 비교를 통해 실용적인 배포 전략 선택에 도움을 줍니다.
3D 파레토 최적성 이론 기반의 통합 평가 방법은 향후 연구의 표준 기반으로 활용될 수 있습니다.
한계점:
평가에 사용된 LLM과 XR 기기의 종류가 제한적일 수 있습니다. 더 다양한 모델과 기기를 포함한 추가 연구가 필요합니다.
평가 지표가 성능, 속도, 메모리, 배터리 소모량에 국한되어 있습니다. 사용자 경험, 지연 시간 등 다른 중요한 요소에 대한 고려가 부족할 수 있습니다.
특정 XR 애플리케이션에 대한 최적화된 LLM 선택에 대한 구체적인 가이드라인이 부족할 수 있습니다.
실제 사용 환경의 복잡성을 완전히 반영하지 못할 수 있습니다.
👍