Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Created by
  • Haebom

저자

Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury

개요

본 논문은 머신러닝 모델 학습 및 평가에 필수적인 고품질 데이터셋 생성의 어려움과 기존 데이터셋 논문들의 한계점(독창성, 다양성 부족, 엄격한 품질 관리 부재, 데이터셋 구성 및 속성에 대한 세부 정보 생략)을 지적한다. 기존의 데이터시트나 메타데이터 요구사항은 투명성을 증진하지만 표준화되고 측정 가능한 데이터 품질 평가 방법을 제공하지 못한다는 점을 문제 삼는다. 따라서 본 논문은 데이터셋 검토 과정에 체계적인 루브릭 기반 평가 지표를 통합하고, 합성 데이터 생성을 위한 확장 가능하고 비용 효율적인 방법(전용 도구 및 LLM-as-a-judge 접근 방식 포함)을 탐구한다. 마지막으로, 데이터셋 품질 평가를 위한 구조화된 프레임워크인 DataRubrics를 제시하며, LLM 기반 평가의 재현성, 확장성 및 실행 가능성을 강조하고, 관련 코드를 공개한다.

시사점, 한계점

시사점:
데이터셋 평가에 대한 체계적이고 측정 가능한 기준 마련의 필요성 제시
DataRubrics 프레임워크를 통한 데이터셋 품질 평가의 표준화 및 자동화 가능성 제시
LLM 기반 평가를 활용한 효율적이고 확장 가능한 데이터셋 평가 방법 제시
합성 데이터 생성을 통한 데이터셋 생성 및 평가의 효율성 증대 가능성 제시
한계점:
DataRubrics 프레임워크의 실제 효과 및 일반화 가능성에 대한 추가적인 실험 및 검증 필요
LLM 기반 평가의 편향성 및 신뢰성 문제에 대한 추가적인 고찰 필요
다양한 유형의 데이터셋에 대한 DataRubrics의 적용 가능성 및 한계에 대한 추가적인 연구 필요
루브릭 기반 평가 지표의 주관성 및 객관성 확보 방안에 대한 추가적인 논의 필요
👍