본 논문은 지난 10년간 가장 많은 관심과 자금을 받은 분야인 ML/AI에서 데이터의 중요성을 강조하며, 데이터 품질과 생성 과정에 대한 사용자 인식의 중요성을 논의합니다. 부정적인 영향을 추적, 분석 및 완화하기 위해 데이터셋 문서화의 중요성을 제기하며, 다양한 ML/AI 저장소에서 인기 있는 데이터셋 100개를 대상으로 데이터셋 문서화 현황을 조사했습니다. 문서화 테스트 시트(DTS)라는 데이터셋 문서화 스키마를 만들어 데이터 수집 및 처리 과정 등의 정보가 부족한 현황을 밝히고, 투명성 부족 문제를 지적합니다.