본 논문은 몸에 깃든 AI에서 강력한 언어 지시 에이전트를 훈련하기 위한 고품질 데이터 생성의 어려움을 해결하기 위해 Self-Refining Data Flywheel (SRDF)을 제시합니다. SRDF는 두 모델(지시 생성기와 탐색기) 간의 협업을 통해 데이터 풀을 반복적으로 개선하여 인간의 개입 없이 고품질의 대규모 탐색 지시-궤적 쌍을 생성합니다. 기본 생성기를 사용하여 초기 데이터 풀을 생성하고, 훈련된 탐색기를 사용하여 데이터 풀을 필터링하는 과정을 반복하여 데이터 품질을 향상시키고, 이를 통해 더 나은 생성기를 훈련하고, 더 고품질의 데이터를 생성하는 선순환 구조를 형성합니다. 실험 결과, SRDF는 R2R 테스트 세트에서 탐색기의 성능을 70%에서 78% SPL로 향상시켜 최초로 인간 수준(76%)을 넘어섰으며, 생성기의 SPICE 점수도 23.5에서 26.2로 향상시켜 기존 방법들을 능가함을 보였습니다. 또한, 환경 및 지시 다양성 증가를 통한 확장성과 다양한 하위 탐색 작업에서의 일반화 능력을 보여주며 최첨단 방법들을 크게 능가하는 결과를 달성했습니다.