Distilling 3D Spatial Reasoning into a Lightweight Vision-Language Model with CoT

작성자

Haebom

카테고리

Empty

저자

Alaa Asfour, Christopher Indris, Leihan Chen, Tejas Vyas, Guanghui Wang

💡 개요

본 논문은 연산 비용이 높은 대규모 3D 비전-언어 모델(VLM)의 공간 추론 능력을 70억 개의 매개변수를 가진 교사 모델에서 22.9억 개의 학생 모델로 효율적으로 이전하는 지식 증류 프레임워크를 제안합니다. 제안된 방법은 연산량 감소와 모델 크기 축소에도 불구하고 교사 모델 성능의 54-72%를 유지하며, 특히 Chain-of-Thought(CoT) 데이터 없이도 잠재 토큰을 활용한 "Hidden CoT" 기법으로 추론 능력을 강화합니다. 이를 통해 자원이 제한된 환경에서도 효율적인 3D 장면 질의응답이 가능해집니다.

🔑 시사점 및 한계

•

경량화된 3D VLM 구축 가능성 확인: 높은 성능을 유지하면서 모델 크기와 연산 비용을 획기적으로 줄여 실질적인 배포 가능성을 열었습니다.

•

"Hidden CoT" 기법의 효과 입증: 별도의 CoT 데이터를 사용하지 않고도 잠재 토큰을 통해 내부적인 추론 과정을 학습시켜 성능을 향상시킬 수 있음을 보여줍니다.

•

다양한 3D 공간 추론 능력 통합: 공간 설명, 깊이 추정, 객체 탐지 등 여러 3D 관련 작업을 통합적으로 수행하는 학생 모델의 가능성을 제시합니다.

•

성능 유지의 한계: 증류 과정에서 교사 모델의 성능을 완전히 따라잡지는 못하며, 일부 작업에서는 상당한 성능 격차가 발생할 수 있습니다.

•

"Hidden CoT"의 최적화: 잠재 토큰의 개수, 구조, 학습 방식 등에 대한 추가적인 연구를 통해 성능을 더욱 개선할 여지가 있습니다.

PDF 보기

Made with Slashpage