Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o

Created by
  • Haebom
Category
Empty

저자

Dingning Liu, Cheng Wang, Peng Gao, Renrui Zhang, Xinzhu Ma, Yuan Meng, Zhihui Wang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 3D 비전 능력을 향상시키는 새로운 시각적 프롬프트 방법인 3DAxisPrompt를 제안합니다. 3DAxisPrompt는 Segment Anything Model (SAM)로 생성된 3D 좌표축과 마스크를 활용하여 MLLMs에 명시적인 기하학적 사전 정보를 제공함으로써, 기존의 2D 기반 추론 능력을 실제 3D 환경으로 확장합니다. GPT-4o를 대상으로 다양한 시각적 프롬프트 형식을 조사하여 3D 이해 능력의 잠재력과 한계를 밝히고, ScanRefer, ScanNet, FMB, nuScene 데이터셋을 사용하여 광범위한 정량적 및 정성적 실험을 수행합니다. 실험 결과, 3DAxisPrompt를 활용한 MLLMs는 실제 환경에서 객체의 3D 위치를 효과적으로 인식할 수 있음을 보여주지만, 모든 3D 작업에 대해 단일 프롬프트 엔지니어링 접근 방식이 항상 최상의 결과를 제공하는 것은 아님을 확인합니다.

시사점, 한계점

시사점:
MLLMs에 3DAxisPrompt를 적용하여 실제 3D 환경에서 객체의 3D 위치 인식 능력 향상 가능성 제시.
프롬프트 엔지니어링 기법을 통해 MLLMs를 3D 비전 기반 추론에 활용할 수 있음을 보여줌.
다양한 3D 작업에 대한 3DAxisPrompt의 효과성을 실험적으로 검증.
한계점:
단일 프롬프트 엔지니어링 접근 방식이 모든 3D 작업에 대해 최상의 결과를 보장하지 못함.
특정 3D 작업에 대한 최적의 프롬프트 엔지니어링 전략에 대한 추가 연구 필요.
👍