TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting
Created by
Haebom
저자
Zhicong Wu, Hongbin Xu, Gang Xu, Ping Nie, Zhixin Yan, Jinkai Zheng, Liangqiong Qu, Ming Li, Liqiang Nie
개요
본 논문에서는 희소한 입력 뷰로부터 강력한 3D 재구성을 가능하게 하는 일반화 가능한 Gaussian Splatting의 최근 발전에 기반하여, 텍스트 기반의 안내를 활용하여 복잡한 장면의 세밀한 디테일을 정확하게 재구성하는 TextSplat 프레임워크를 제안합니다. 기존 방법들이 기하학적 일관성에 초점을 맞춘 것과 달리, TextSplat은 텍스트 기반의 안내를 통해 의미론적 이해를 향상시키는 데 중점을 둡니다. 정확한 깊이 정보를 얻기 위한 확산 사전 깊이 추정기, 상세한 의미 정보를 위한 의미론적 인식 분할 네트워크, 그리고 개선된 교차 뷰 특징을 위한 다중 뷰 상호작용 네트워크의 세 가지 병렬 모듈을 사용하여 상호 보완적인 표현을 얻습니다. 이후, 텍스트 기반의 주의 기반 특징 집계 메커니즘을 통해 이러한 표현들을 통합하여, 상세한 의미론적 단서가 풍부하게 포함된 향상된 3D Gaussian 파라미터를 생성합니다. 다양한 벤치마크 데이터셋에 대한 실험 결과는 여러 평가 지표에서 기존 방법보다 성능이 향상되었음을 보여줍니다. 코드는 공개적으로 이용 가능할 예정입니다.
시사점, 한계점
•
시사점:
◦
텍스트 기반 안내를 활용하여 일반화 가능한 Gaussian Splatting의 성능을 향상시킨 최초의 프레임워크 제시.
◦
기하학적 정보와 의미론적 정보의 정렬 개선을 통해 고충실도 3D 재구성 달성.
◦
다양한 모듈을 통해 상호 보완적인 표현을 얻고, 텍스트 기반 주의 메커니즘으로 효과적으로 통합.