본 논문은 동적인 환경에서 개방형 어휘 객체 탐색을 위한 의미론 인식 데이터셋 및 벤치마크 생성 파이프라인(SD-OVON)을 제시합니다. 사전 훈련된 다중 모드 기반 모델을 활용하여 실제 세계의 의미론과 일상적인 상식을 준수하는 무한한 고유한 사실적인 장면 변형을 생성하여 탐색 에이전트의 훈련 및 평가에 사용합니다. Habitat 시뮬레이터와 호환되는 객체 탐색 작업 에피소드를 생성하는 플러그인도 함께 제공합니다. 또한, 약 2.5k개의 사실적인 실제 환경 스캔으로 구성된 SD-OVON-Scenes 데이터셋과 0.9k개의 수동 검사된 스캔 및 아티스트가 제작한 조작 가능한 객체 모델로 구성된 SD-OVON-Objects 데이터셋을 기반으로, 각각 약 3k개와 10k개의 개방형 어휘 객체 탐색 작업 에피소드로 구성된 두 개의 사전 생성된 객체 탐색 작업 데이터셋, SD-OVON-3k 및 SD-OVON-10k를 제공합니다. 기존의 정적 환경으로 제한된 데이터셋과 달리, SD-OVON은 동적 장면과 조작 가능한 객체를 포함하여 실제-시뮬레이션 간 및 시뮬레이션-실제 간 로봇 응용 프로그램을 모두 가능하게 합니다. 이러한 접근 방식은 복잡한 설정에서 탐색 작업의 현실성, 개방형 어휘 객체 탐색 에이전트의 훈련 및 평가를 향상시킵니다. 파이프라인과 데이터셋의 효과를 보여주기 위해 두 개의 기준 모델을 제안하고, SD-OVON-3k에서 최첨단 기준 모델과 함께 평가합니다. 데이터셋, 벤치마크 및 소스 코드는 공개적으로 이용 가능합니다.