가상 현실(VR) 게임에서 고수준의 의미적 행동을 컨트롤러와 HMD를 이용한 정밀한 장치 조작으로 변환하는 과정에서, 대규모 언어 모델(LLM)이 이 능력을 얼마나 효과적으로 모방할 수 있는지 평가하는 연구입니다. 이를 위해 4개의 인기 VR 게임(Half-Life: Alyx, Into the Radius, Moss: Book II, Vivecraft)의 262개 시나리오를 포함하는 벤치마크 ComboBench를 개발하여 GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, GLM-4-Flash 등 7개의 LLM을 평가했습니다. 결과적으로, Gemini-1.5-Pro와 같은 상위 모델이 강력한 태스크 분해 능력을 보였지만, 절차적 추론 및 공간 이해 측면에서는 인간보다 뒤쳐졌습니다. 게임별 성능 차이와 소수 샷(few-shot) 예시의 성능 향상을 통해 LLM의 VR 조작 능력 개선 가능성을 제시합니다.