Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding

Created by
  • Haebom

저자

Jiawen Lin, Shiran Bian, Yihang Zhu, Wenbin Tan, Yachao Zhang, Yuan Xie, Yanyun Qu

개요

본 논문은 제한된 환경에서 높은 정확도를 달성하는 지도 학습 방식과 달리, 현실 세계 적용에 유리한 제로샷 3D 시각적 접지(3DVG)에 초점을 맞춥니다. 기존 제로샷 방법들의 공간적 추론 한계와 문맥 생략 또는 세부 정보 저하 문제를 해결하기 위해, 다중 뷰 실제 장면 이미지와 공간 정보를 활용하는 새로운 제로샷 3DVG 프레임워크인 SeqVLM을 제안합니다. SeqVLM은 3D 의미론적 분할 네트워크를 통해 3D 인스턴스 제안을 생성하고 의미론적 필터링을 통해 제안을 개선하여 의미론적으로 관련된 후보만 유지합니다. 제안 기반 다중 뷰 투영 전략을 통해 후보 제안을 실제 장면 이미지 시퀀스에 투영하여 3D 점 구름에서 이미지로의 변환 과정에서 공간 관계와 문맥적 세부 정보를 보존합니다. 또한 VLM의 계산 부하를 줄이기 위해 시퀀스-쿼리 프롬프트를 반복적으로 처리하는 동적 스케줄링 메커니즘을 구현하여 VLM의 교차 모드 추론 기능을 활용하여 텍스트로 지정된 객체를 식별합니다. ScanRefer와 Nr3D 벤치마크에 대한 실험 결과, 기존 제로샷 방법보다 각각 4.0%와 5.2% 향상된 Acc@0.25 점수 55.6%와 53.2%를 달성하여 최첨단 성능을 보였습니다. 코드는 https://github.com/JiawLin/SeqVLM 에서 이용 가능합니다.

시사점, 한계점

시사점:
다중 뷰 이미지와 공간 정보 활용을 통한 제로샷 3DVG 성능 향상 및 일반화 가능성 증대.
동적 스케줄링 메커니즘을 통한 VLM 계산 부하 감소.
ScanRefer와 Nr3D 벤치마크에서 최첨단 성능 달성.
실제 세계 적용 가능성 증대.
한계점:
제안된 방법의 성능은 사용된 3D 의미론적 분할 네트워크 및 VLM의 성능에 의존적일 수 있음.
다중 뷰 이미지 처리에 따른 계산 비용 증가 가능성.
특정 유형의 장면이나 객체에 대해서는 성능 저하 가능성 존재.
다양한 환경에서의 일반화 성능에 대한 추가적인 연구 필요.
👍