Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

Created by
  • Haebom

저자

Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando

언어 지침 기반 실제 3D 장면 내 객체 배치

개요

본 논문은 실제 3D 장면에서 언어 지침에 따라 객체를 배치하는 새로운 작업을 소개합니다. 모델은 3D 장면의 포인트 클라우드, 3D 에셋, 그리고 3D 에셋을 배치해야 하는 위치를 광범위하게 설명하는 텍스트 프롬프트를 입력으로 받습니다. 이 작업은 프롬프트를 준수하는 3D 에셋의 유효한 배치를 찾는 것입니다. 3D 장면에서 언어 지침 기반 위치 지정 작업(예: grounding)과 비교하여, 이 작업은 여러 유효한 솔루션이 존재하여 모호하고, 3D 기하 관계와 빈 공간에 대한 추론이 필요하다는 특정 과제를 가지고 있습니다. 본 연구에서는 새로운 벤치마크와 평가 프로토콜을 제시하여 이 작업을 시작합니다. 또한, 이 작업에 대한 3D LLM(Language Learning Model) 학습을 위한 새로운 데이터 세트와, 의미 있는 기준선 역할을 하는 최초의 방법을 소개합니다. 이 어려운 작업과 새로운 벤치마크는 일반적인 3D LLM 모델을 평가하고 비교하는 데 사용되는 벤치마크의 일부가 될 수 있을 것으로 생각합니다.

시사점, 한계점

새로운 3D 객체 배치 작업 정의 및 소개
새로운 벤치마크 및 평가 프로토콜 개발
3D LLM 학습을 위한 새로운 데이터 세트 구축
의미 있는 기준선 역할을 하는 최초의 방법론 제시
작업의 모호성 및 3D 기하 관계 추론의 어려움
일반적인 3D LLM 모델 평가를 위한 벤치마크로서의 잠재력
👍