AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results
Created by
Haebom
저자
Dawar Khan, Xinyu Liu, Omar Mena, Donggang Jia, Alexandre Kouyoumdjian, Ivan Viola
개요
본 논문은 확장 현실(XR) 기기에서 대규모 언어 모델(LLM)의 배포를 위한 포괄적인 평가 프레임워크인 AIvaluateXR을 제시합니다. Magic Leap 2, Meta Quest 3, Vivo X100s Pro, Apple Vision Pro 등 네 가지 XR 플랫폼에서 17개의 LLM을 배포하여 성능 일관성, 처리 속도, 메모리 사용량, 배터리 소모량 등 네 가지 주요 지표를 측정했습니다. 문자열 길이, 배치 크기, 스레드 수를 변경하며 각 모델-기기 조합(68개)의 성능을 평가하고, 실시간 XR 애플리케이션을 위한 트레이드오프를 분석했습니다. 3D 파레토 최적성 이론을 기반으로 최적의 기기-모델 조합을 선택하는 통합 평가 방법을 제안하고, 온디바이스 LLM과 클라이언트-서버 및 클라우드 기반 설정의 효율성을 비교하며 두 가지 대화형 작업에 대한 정확도를 평가했습니다. XR 기기에서 LLM 배포를 위한 향후 최적화 노력을 안내하는 데 귀중한 통찰력을 제공하며, 본 평가 방법은 이 신흥 분야의 추가 연구 및 개발을 위한 표준 기반으로 사용될 수 있습니다. 소스 코드와 보충 자료는 www.nanovis.org/AIvaluateXR.html에서 제공됩니다.
시사점, 한계점
•
시사점:
◦
XR 기기에서 LLM 배포를 위한 포괄적인 평가 프레임워크 AIvaluateXR을 제공합니다.
◦
다양한 XR 기기와 LLM에 대한 실험적 평가 결과를 제시하여 최적의 기기-모델 조합 선택에 대한 통찰력을 제공합니다.
◦
온디바이스 LLM, 클라이언트-서버, 클라우드 기반 설정의 효율성 비교를 통해 실용적인 배포 전략 선택에 도움을 줍니다.
◦
3D 파레토 최적성 이론 기반의 통합 평가 방법은 향후 연구의 표준 기반으로 활용될 수 있습니다.
•
한계점:
◦
평가에 사용된 LLM과 XR 기기의 종류가 제한적일 수 있습니다. 더 다양한 모델과 기기를 포함한 추가 연구가 필요합니다.
◦
평가 지표가 성능, 속도, 메모리, 배터리 소모량에 국한되어 있습니다. 사용자 경험, 지연 시간 등 다른 중요한 요소에 대한 고려가 부족할 수 있습니다.
◦
특정 XR 애플리케이션에 대한 최적화된 LLM 선택에 대한 구체적인 가이드라인이 부족할 수 있습니다.