본 논문은 지속적인 환경에서의 비전-언어 탐색(VLN-CE) 문제를 다룹니다. 기존의 VLN-CE 접근 방식은 현재 관측에만 의존하거나 예측된 미래 시각 이미지 또는 의미 특징에 의존하는데, 이는 직관적인 외관 정보나 고차원 의미적 복잡성이 부족하다는 한계를 지닙니다. 이를 극복하기 위해, 본 논문에서는 고충실도 360도 시각 이미지와 의미 특징을 통합적으로 렌더링하는 새로운 3DGS 기반 사전 훈련 패러다임인 UnitedVLN을 제시합니다. UnitedVLN은 검색-후-쿼리 샘플링 및 분리-후-통합 렌더링이라는 두 가지 주요 방식을 사용하여 신경 원시 요소를 효율적으로 활용하고, 외관 및 의미 정보를 통합하여 보다 강력한 탐색을 가능하게 합니다. 실험 결과, UnitedVLN이 기존 VLN-CE 벤치마크에서 최첨단 방법들을 능가하는 성능을 보임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
고충실도 360도 시각 이미지와 의미 특징을 통합적으로 활용하여 VLN-CE 문제에 대한 새로운 접근 방식을 제시합니다.
◦
검색-후-쿼리 샘플링 및 분리-후-통합 렌더링 기법을 통해 효율적인 신경 원시 요소 활용 및 외관 및 의미 정보 통합을 달성합니다.
◦
기존 VLN-CE 벤치마크에서 최첨단 성능을 달성하여 UnitedVLN의 우수성을 입증합니다.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 평가가 필요합니다. 다양한 환경과 작업에 대한 성능 분석이 더 필요합니다.
◦
계산 비용이 높을 수 있습니다. 고충실도 360도 이미지 렌더링은 상당한 계산 자원을 필요로 할 수 있습니다.
◦
실제 환경에서의 성능 평가가 부족합니다. 시뮬레이션 환경에서의 우수한 성능이 실제 환경으로 일반화될 수 있는지에 대한 검증이 필요합니다.