Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM

Created by
  • Haebom

저자

Jirong Zha, Yuxuan Fan, Xiao Yang, Chen Gao, Xinlei Chen

개요

본 논문은 대규모 언어 모델(LLM)을 3D 공간 이해에 통합하는 방법에 대한 종합적인 검토를 제시합니다. 로보틱스, 자율 주행, 가상 현실, 의료 영상과 같은 실제 응용 분야에서 3D 공간 이해의 중요성을 강조하며, 기존 컴퓨터 비전 방법을 능가할 가능성을 보이는 LLM의 활용에 초점을 맞춥니다. 이 논문은 이미지 기반, 점 구름 기반, 그리고 하이브리드 모달리티 기반의 세 가지 범주로 기존 방법들을 분류하는 분류 체계를 제안하고, 각 범주에 따른 대표적인 방법들을 데이터 표현, 아키텍처 수정, 그리고 텍스트와 3D 모달리티를 연결하는 훈련 전략 측면에서 체계적으로 검토합니다. 마지막으로, 데이터셋 부족과 계산상의 어려움 등 현재의 한계점을 논의하고, 공간 인지, 다중 모달리티 융합, 그리고 실제 응용 분야에서 유망한 연구 방향을 제시합니다.

시사점, 한계점

시사점:
LLM을 활용한 3D 공간 이해 방법에 대한 종합적인 검토 및 분류 체계 제시
이미지 기반, 점 구름 기반, 하이브리드 모달리티 기반 방법들의 체계적인 분석
텍스트와 3D 모달리티 연결을 위한 데이터 표현, 아키텍처, 훈련 전략에 대한 심층적인 논의
실제 응용 분야를 고려한 유망한 연구 방향 제시
한계점:
데이터셋 부족
계산상의 어려움
👍