# How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

### 저자

Sophia N. Wilson, Sebastian Mair, Mophat Okinyi, Erik B. Dam, Janin Koch, Raghavendra Selvan

### 💡 개요

본 연구는 인공지능(AI) 분야에서 데이터의 중요성이 커짐에 따라 발생하는 환경적, 사회적, 경제적 지속가능성 비용을 탐구합니다. 데이터 구축에서 더 나아가 데이터 생성을 위한 데이터 구축으로 전환되는 '하이퍼-데이터피케이션' 현상을 정의하고, Hugging Face Hub 데이터셋 분석 및 데이터 작업자 인터뷰를 통해 이로 인한 전 세계적 불균형을 규명합니다.

### 🔑 시사점 및 한계

- 하이퍼-데이터피케이션은 단순한 자원 소비 증가를 넘어 환경 부담, 노동 위험, 표현의 불균형을 글로벌 남부, 취약한 데이터 작업자, 소수 문화에 체계적으로 전가시킵니다.

- AI 개발에 사용되는 데이터의 출처, 자원 사용량, 소유권, 개방성, 효율성, 표준에 대한 구체적인 권고안(Data PROOFS)을 제시하여 이러한 비용을 완화할 수 있습니다.

- 본 연구는 종종 간과되는 AI 데이터의 비용을 가시화하고 관련 커뮤니티 내외의 논의를 촉진하는 것을 목표로 합니다.

- 데이터 작업자의 정성적 응답에 대한 심층적인 분석 및 다양한 지역의 데이터 센터 인프라에 대한 추가적인 외부 데이터 활용이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2602.00056)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
