3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
Created by
Haebom
Category
Empty
저자
Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
개요
본 논문은 언어와 3D 지각의 통합이 물리적 세계를 이해하고 상호 작용하는 구현 에이전트와 로봇에 필수적임을 강조합니다. 대규모 언어 모델(LLM)이 인상적인 언어 이해 및 생성 능력을 보여주었지만, 3D 환경에 대한 적용(3D-LLM)은 초기 단계에 있습니다. 주요 과제는 언어와 3D 장면 간의 밀집된 접지(grounding)를 갖춘 대규모 데이터셋의 부족입니다. 본 논문에서는 40,087개의 가정 장면과 620만 개의 밀집 접지 장면-언어 지침이 짝을 이룬 대규모 선구적인 데이터셋인 3D-GRAND를 소개합니다. 3D-GRAND를 사용한 지침 미세 조정이 3D-LLM의 접지 능력을 크게 향상시키고 환각을 줄이는 것을 보여줍니다. 또한 3D-LLM의 환각을 체계적으로 평가하기 위한 종합적인 벤치마크 3D-POPE를 제안하여 모델 간의 공정한 비교를 가능하게 합니다. 실험 결과는 데이터셋 크기와 3D-LLM 성능 간의 확장 효과를 강조하며, 구현 AI 연구를 위한 대규모 3D 텍스트 데이터셋의 중요성을 보여줍니다. 합성 데이터로 훈련된 모델이 실제 세계 3D 스캔에서도 잘 수행될 수 있음을 나타내는 효과적인 시뮬레이션-실제 전이(sim-to-real transfer)에 대한 초기 신호를 보여줍니다. 3D-GRAND와 3D-POPE를 통해 더 신뢰할 수 있고 접지력이 뛰어난 3D-LLM으로 이어질 수 있는 자원과 통찰력을 구현 AI 커뮤니티에 제공하고자 합니다.
시사점, 한계점
•
시사점:
◦
3D-GRAND 데이터셋은 언어와 3D 환경 간의 밀집된 접지를 갖춘 대규모 데이터셋을 제공하여 3D-LLM 연구에 중요한 자원을 제공합니다.
◦
3D-GRAND를 사용한 지침 미세 조정은 3D-LLM의 접지 능력 향상 및 환각 감소에 효과적임을 보여줍니다.
◦
3D-POPE 벤치마크는 3D-LLM의 환각을 체계적으로 평가하고 모델 간의 공정한 비교를 가능하게 합니다.
◦
데이터셋 크기와 3D-LLM 성능 간의 확장 효과를 확인하여 대규모 데이터의 중요성을 강조합니다.
◦
합성 데이터로 훈련된 모델의 실제 세계 적용 가능성을 시사하는 sim-to-real 전이에 대한 초기 결과를 제시합니다.
•
한계점:
◦
3D-GRAND 데이터셋이 가정 환경에 집중되어 있어 다른 환경으로의 일반화 가능성은 추가 연구가 필요합니다.
◦
3D-POPE 벤치마크의 포괄성을 더욱 높이기 위한 추가적인 평가 지표 개발이 필요할 수 있습니다.
◦
sim-to-real 전이의 초기 결과는 아직 제한적이며, 더욱 견고한 실험이 필요합니다.