Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Completeness of Datasets Documentation on ML/AI repositories: an Empirical Investigation

Created by
  • Haebom
Category
Empty

저자

Marco Rondina, Antonio Vetro, Juan Carlos De Martin

개요

본 논문은 지난 10년간 가장 많은 관심과 자금을 받은 분야인 ML/AI에서 데이터의 중요성을 강조하며, 데이터 품질과 생성 과정에 대한 사용자 인식의 중요성을 논의합니다. 부정적인 영향을 추적, 분석 및 완화하기 위해 데이터셋 문서화의 중요성을 제기하며, 다양한 ML/AI 저장소에서 인기 있는 데이터셋 100개를 대상으로 데이터셋 문서화 현황을 조사했습니다. 문서화 테스트 시트(DTS)라는 데이터셋 문서화 스키마를 만들어 데이터 수집 및 처리 과정 등의 정보가 부족한 현황을 밝히고, 투명성 부족 문제를 지적합니다.

시사점, 한계점

시사점: ML/AI 분야에서 데이터셋 문서화의 중요성을 강조하고, 현재 데이터셋 문서화의 부족한 현황을 실증적으로 보여줌으로써 데이터셋 품질 관리 및 투명성 향상을 위한 노력의 필요성을 제시합니다. DTS와 같은 체계적인 문서화 스키마 개발의 필요성을 시사합니다.
한계점: 조사 대상이 100개의 데이터셋으로 제한되어 있으며, 특정 저장소의 데이터셋에 국한되어 일반화에 한계가 있을 수 있습니다. DTS 스키마 자체의 객관성과 포괄성에 대한 검토가 필요할 수 있습니다. 문서화 부족의 원인에 대한 심층적인 분석이 부족합니다.
👍