Sign In

ComboBench: Can LLMs Manipulate Physical Devices to Play Virtual Reality Games?

Created by
  • Haebom
Category
Empty

저자

Shuqing Li, Jiayi Yan, Chenyu Niu, Jen-tse Huang, Yun Peng, Wenxuan Wang, Yepang Liu, Michael R. Lyu

개요

가상 현실(VR) 게임에서 고수준의 의미적 행동을 컨트롤러와 HMD를 이용한 정밀한 장치 조작으로 변환하는 과정에서, 대규모 언어 모델(LLM)이 이 능력을 얼마나 효과적으로 모방할 수 있는지 평가하는 연구입니다. 이를 위해 4개의 인기 VR 게임(Half-Life: Alyx, Into the Radius, Moss: Book II, Vivecraft)의 262개 시나리오를 포함하는 벤치마크 ComboBench를 개발하여 GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, GLM-4-Flash 등 7개의 LLM을 평가했습니다. 결과적으로, Gemini-1.5-Pro와 같은 상위 모델이 강력한 태스크 분해 능력을 보였지만, 절차적 추론 및 공간 이해 측면에서는 인간보다 뒤쳐졌습니다. 게임별 성능 차이와 소수 샷(few-shot) 예시의 성능 향상을 통해 LLM의 VR 조작 능력 개선 가능성을 제시합니다.

시사점, 한계점

시사점:
LLM은 VR 장치 조작을 위한 의미적 행동 변환 능력을 부분적으로 갖추고 있음을 확인했습니다.
Gemini-1.5-Pro 등 상위 모델은 태스크 분해에 강점을 보였습니다.
소수 샷 예시를 통해 LLM의 VR 조작 능력 향상 가능성을 확인했습니다.
한계점:
LLM은 절차적 추론 및 공간 이해에서 인간보다 뒤쳐졌습니다.
게임별 상호작용 복잡성에 따라 성능 편차가 컸습니다.
👍