Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding

Created by
  • Haebom
Category
Empty

저자

Yerim Jeon, Miso Lee, WonJun Moon, Jae-Pil Heo

개요

본 논문은 3D 장면 이해를 위해 대규모 언어 모델(LLM)을 활용하는 기존 방식의 한계를 극복하고자, 3D 공간 구조에 적합한 어텐션 마스크 전략인 3D Spatial Language Instruction Mask (3D-SLIM)을 제안합니다. 3D-SLIM은 시퀀셜 바이어스와 제한적인 객체-지시 어텐션을 해결하며, 기하학 기반 마스크와 지시 사항 인지 마스크를 통해 3D 객체의 공간적 관계를 반영하고 사용자 지시에 따라 3D 객체를 처리합니다. 구조 변경이나 추가 파라미터 없이 다양한 3D 장면 언어 작업에서 성능 향상을 보입니다.

시사점, 한계점

시사점:
3D 장면 이해를 위한 LLM 활용 방식 개선: 기존의 시퀀셜 바이어스를 해결하고 공간적 구조를 반영하여 성능 향상.
간결성과 효율성: 별도의 구조 변경이나 추가 파라미터 없이 효과적인 성능 개선을 달성.
광범위한 실험: 다양한 벤치마크와 LLM 기반 방법을 통해 제안 방법의 효과 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍