CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR
Created by
Haebom
Category
Empty
저자
Kadir Burak Buldu, Suleyman Ozdel, Ka Hei Carrie Lau, Mengdi Wang, Daniel Saad, Sofie Schonborn, Auxane Boch, Enkelejda Kasneci, Efe Bozkir
개요
본 논문은 일상생활에서 기술 훈련부터 엔터테인먼트까지 다양한 용도로 확장 현실(XR) 설정을 가능하게 하는 컴퓨터 그래픽, 기계 학습 및 센서 기술의 최근 발전에 대해 논의합니다. 대기업들이 저렴한 소비자급 헤드 마운티드 디스플레이(HMD)를 제공함에 따라 XR은 널리 보급될 가능성이 높으며, HMD는 스마트폰이나 태블릿과 같은 개인용 기기로 발전할 것입니다. 그러나 사용자가 가상 및 증강 공간에 대한 참여도를 높이기 위해서는 기술적 발전만큼 지능형 공간과 자연스러운 상호 작용이 중요합니다. 이를 위해 음성 인식(STT) 및 음성 합성(TTS) 모델을 갖춘 대규모 언어 모델(LLM) 기반 비플레이어 캐릭터(NPC)는 XR에서 더욱 자연스러운 대화형 사용자 인터페이스(CUI)를 용이하게 하기 위해 기존 또는 미리 작성된 NPC보다 상당한 이점을 제공합니다. 본 논문에서는 널리 사용되는 LLM, STT 및 TTS 모델을 사용하여 음성 기반 NPC-사용자 상호 작용을 용이하게 하는 오픈 소스, 사용자 지정 가능, 확장 가능 및 개인 정보 보호를 고려한 Unity 패키지인 CUIfy를 커뮤니티에 제공합니다. 본 패키지는 환경당 여러 LLM 기반 NPC를 지원하며 스트리밍을 통해 다양한 계산 모델 간의 지연 시간을 최소화하여 사용자와 NPC 간의 사용 가능한 상호 작용을 달성합니다. 소스 코드는 https://gitlab.lrz.de/hctl/cuify 에서 공개합니다.