Sign In

CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR

Created by
  • Haebom
Category
Empty

저자

Kadir Burak Buldu, Suleyman Ozdel, Ka Hei Carrie Lau, Mengdi Wang, Daniel Saad, Sofie Schonborn, Auxane Boch, Enkelejda Kasneci, Efe Bozkir

개요

본 논문은 일상생활에서 기술 훈련부터 엔터테인먼트까지 다양한 용도로 확장 현실(XR) 설정을 가능하게 하는 컴퓨터 그래픽, 기계 학습 및 센서 기술의 최근 발전에 대해 논의합니다. 대기업들이 저렴한 소비자급 헤드 마운티드 디스플레이(HMD)를 제공함에 따라 XR은 널리 보급될 가능성이 높으며, HMD는 스마트폰이나 태블릿과 같은 개인용 기기로 발전할 것입니다. 그러나 사용자가 가상 및 증강 공간에 대한 참여도를 높이기 위해서는 기술적 발전만큼 지능형 공간과 자연스러운 상호 작용이 중요합니다. 이를 위해 음성 인식(STT) 및 음성 합성(TTS) 모델을 갖춘 대규모 언어 모델(LLM) 기반 비플레이어 캐릭터(NPC)는 XR에서 더욱 자연스러운 대화형 사용자 인터페이스(CUI)를 용이하게 하기 위해 기존 또는 미리 작성된 NPC보다 상당한 이점을 제공합니다. 본 논문에서는 널리 사용되는 LLM, STT 및 TTS 모델을 사용하여 음성 기반 NPC-사용자 상호 작용을 용이하게 하는 오픈 소스, 사용자 지정 가능, 확장 가능 및 개인 정보 보호를 고려한 Unity 패키지인 CUIfy를 커뮤니티에 제공합니다. 본 패키지는 환경당 여러 LLM 기반 NPC를 지원하며 스트리밍을 통해 다양한 계산 모델 간의 지연 시간을 최소화하여 사용자와 NPC 간의 사용 가능한 상호 작용을 달성합니다. 소스 코드는 https://gitlab.lrz.de/hctl/cuify 에서 공개합니다.

시사점, 한계점

시사점:
오픈 소스 XR 환경에서 LLM 기반 NPC를 통한 자연스러운 대화형 상호 작용을 가능하게 하는 CUIfy 패키지를 제공합니다.
다양한 LLM, STT, TTS 모델과의 호환성을 제공하여 사용자의 선택지를 넓힙니다.
스트리밍 기반 아키텍처를 통해 지연 시간을 최소화하여 실시간 상호 작용을 개선합니다.
사용자 지정 및 확장 가능한 구조를 통해 다양한 XR 애플리케이션에 적용 가능합니다.
개인 정보 보호를 고려한 설계로 사용자 데이터의 안전성을 강화합니다.
한계점:
LLM의 성능에 의존적이며, LLM의 한계가 CUIfy의 성능에도 영향을 미칠 수 있습니다.
Unity 플랫폼에만 국한되어 다른 게임 엔진이나 플랫폼과의 호환성이 부족할 수 있습니다.
다양한 LLM 및 음성 모델 지원을 위한 추가적인 설정 및 구성이 필요할 수 있습니다.
개인 정보 보호에 대한 고려는 있지만, 완벽한 보장은 어려울 수 있습니다.
대규모 환경이나 복잡한 상호 작용에서는 성능 저하가 발생할 가능성이 있습니다.
👍