Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SD-OVON: A Semantics-aware Dataset and Benchmark Generation Pipeline for Open-Vocabulary Object Navigation in Dynamic Scenes

Created by
  • Haebom

저자

Dicong Qiu, Jiadi You, Zeying Gong, Ronghe Qiu, Hui Xiong, Junwei Liang

개요

본 논문은 동적인 환경에서 개방형 어휘 객체 탐색을 위한 의미론 인식 데이터셋 및 벤치마크 생성 파이프라인(SD-OVON)을 제시합니다. 사전 훈련된 다중 모드 기반 모델을 활용하여 실제 세계의 의미론과 일상적인 상식을 준수하는 무한한 고유한 사실적인 장면 변형을 생성하여 탐색 에이전트의 훈련 및 평가에 사용합니다. Habitat 시뮬레이터와 호환되는 객체 탐색 작업 에피소드를 생성하는 플러그인도 함께 제공합니다. 또한, 약 2.5k개의 사실적인 실제 환경 스캔으로 구성된 SD-OVON-Scenes 데이터셋과 0.9k개의 수동 검사된 스캔 및 아티스트가 제작한 조작 가능한 객체 모델로 구성된 SD-OVON-Objects 데이터셋을 기반으로, 각각 약 3k개와 10k개의 개방형 어휘 객체 탐색 작업 에피소드로 구성된 두 개의 사전 생성된 객체 탐색 작업 데이터셋, SD-OVON-3k 및 SD-OVON-10k를 제공합니다. 기존의 정적 환경으로 제한된 데이터셋과 달리, SD-OVON은 동적 장면과 조작 가능한 객체를 포함하여 실제-시뮬레이션 간 및 시뮬레이션-실제 간 로봇 응용 프로그램을 모두 가능하게 합니다. 이러한 접근 방식은 복잡한 설정에서 탐색 작업의 현실성, 개방형 어휘 객체 탐색 에이전트의 훈련 및 평가를 향상시킵니다. 파이프라인과 데이터셋의 효과를 보여주기 위해 두 개의 기준 모델을 제안하고, SD-OVON-3k에서 최첨단 기준 모델과 함께 평가합니다. 데이터셋, 벤치마크 및 소스 코드는 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
동적 환경과 조작 가능한 객체를 포함하는 사실적인 개방형 어휘 객체 탐색 데이터셋 및 벤치마크 제공
실제-시뮬레이션 간 및 시뮬레이션-실제 간 로봇 응용 프로그램에 활용 가능
다중 모드 기반 모델을 활용한 무한한 고유한 장면 변형 생성으로 데이터 확장 가능성 제시
공개된 데이터셋, 벤치마크 및 소스 코드를 통한 연구 활성화
한계점:
현재 제공되는 데이터셋의 규모(SD-OVON-3k, SD-OVON-10k)가 향후 더욱 확장될 필요가 있음.
다양한 유형의 동적 환경 및 조작 가능한 객체의 종류가 더욱 다양해질 수 있음.
제시된 기준 모델의 성능 개선을 위한 추가적인 연구가 필요함.
실제 세계의 복잡성을 완벽하게 반영하지 못할 가능성 존재.
👍