# Limited Linguistic Diversity in Embodied AI Datasets

### 저자

Selma Wanna, Agnes Luhtaru, Jonathan Salfity, Ryan Barron, Juston Moore, Cynthia Matuszek, Mitch Pryor

### 💡 개요

본 연구는 Vision-Language-Action (VLA) 모델 학습 및 평가에 사용되는 데이터셋의 언어적 다양성을 체계적으로 분석합니다. 연구 결과, 많은 VLA 데이터셋이 반복적이고 템플릿화된 명령어에 의존하며 구조적 변형이 제한적임을 발견했습니다. 이는 모델이 학습하는 언어 신호의 범위를 좁히는 결과를 초래합니다.

### 🔑 시사점 및 한계

- 현재 VLA 학습 및 평가 데이터셋에서 사용되는 언어 신호에 대한 중요한 기술적 문서를 제공합니다.

- 데이터셋 선택, 보고, 개선을 위한 보다 원칙적인 접근 방식 마련에 기여합니다.

- 더 넓은 언어적 범위를 포함하도록 데이터셋을 큐레이션하거나 확장하는 전략 개발을 지원합니다.

- 본 연구의 한계점은 분석이 특정 데이터셋에 국한된다는 점이며, 향후 연구에서는 더 다양한 데이터셋을 포함하고 명령어의 의미적 뉘앙스에 대한 더 깊이 있는 분석이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.03136)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).