3D 환경 내 직관적인 인간-AI 상호작용 및 쿼리를 위해 개방형 어휘 언어 필드를 3D로 모델링하는 것은 필수적입니다. LangSplat과 같은 최첨단 접근 방식은 3D Gaussian Splatting을 활용하여 이러한 언어 필드를 효율적으로 구축하며, CLIP과 같은 고차원 모델에서 추출한 특징을 인코딩합니다. 하지만, 이러한 효율성은 현재, 특징 압축을 위해 장면별 언어 오토인코더를 훈련해야 하는 요구 사항으로 상쇄되어, 배포 확장성을 저해하는 비용이 많이 드는 장면별 최적화 병목 현상을 초래합니다. 본 연구에서는 장면별 오토인코더를 대규모 ScanNet 데이터 세트에서 광범위하게 사전 훈련된 일반화된 오토인코더로 대체하여 이 요구 사항을 제거하는 Gen-LangSplat을 소개합니다. 이러한 구조적 변화를 통해 장면별 훈련 없이 새로운 장면에서 고정되고 컴팩트한 잠재 공간을 언어 특징에 사용할 수 있습니다. 이 의존성을 제거함으로써 전체 언어 필드 구성 프로세스는 원래의 LangSplat 방법과 비교하거나 능가하는 쿼리 성능을 제공하면서 효율성을 높입니다. 설계 선택을 검증하기 위해, 최적의 잠재 임베딩 차원을 경험적으로 결정하고, 원래의 512차원 CLIP 임베딩과 재투영된 512차원 CLIP 임베딩 간의 평균 제곱 오차 및 코사인 유사성을 사용하여 표현 충실도를 정량화하는 철저한 제거 연구를 수행합니다. 그 결과, 일반화된 임베딩이 새로운 3D 장면에서 개방형 어휘 쿼리를 효율적이고 정확하게 지원하여 확장 가능하고 실시간 대화형 3D AI 애플리케이션의 길을 열 수 있음을 보여줍니다.