We Need Improved Data Curation and Attribution in AI for Scientific Discovery
Created by
Haebom
저자
Mara Graziani, Antonio Foncubierta, Dimitrios Christofidellis, Irina Espejo-Morales, Malina Molnar, Marvin Alberts, Matteo Manica, Jannis Born
개요
본 논문은 인공 데이터와 인간이 생성한 데이터 간의 상호작용이 과학적 발견에 미치는 영향, 특히 데이터 무결성 및 모델 안정성에 대한 새로운 과제를 다룹니다. 공개 플랫폼의 실험 데이터셋 중 상당수(약 4분의 3)가 낮은 활용률을 보이는 점에 주목하며, 자동화된 방법을 통해 데이터의 발견 가능성과 사용성을 높일 수 있는 기회를 제시합니다. 또한, 인공 데이터와 실제 실험 데이터를 구분하는 어려움이 증가하고 있음을 관찰하고, 인공 데이터 탐지를 위한 자동화 노력을 보완하기 위해 실제 실험 데이터에 워터마킹을 적용하는 방안을 제안합니다. 이를 통해 데이터 추적성과 무결성을 강화하고, 모델의 강건성을 유지하며 인공 데이터와 인간이 생성한 데이터의 균형 있는 통합을 촉진할 수 있다고 주장합니다.
시사점, 한계점
•
시사점:
◦
실험 데이터셋의 낮은 활용률 문제 해결을 위한 자동화된 방법의 필요성 제기
◦
인공 데이터와 실제 데이터의 구분 어려움을 해결하기 위한 워터마킹 기법 제안
◦
워터마킹을 통한 데이터 추적성 및 무결성 강화, 모델 강건성 유지, 인공 데이터와 실제 데이터의 균형있는 통합 가능성 제시
•
한계점:
◦
워터마킹 기법의 구체적인 방법 및 효과에 대한 자세한 설명 부족
◦
워터마킹 적용 비율에 대한 추정의 근거 및 정확성에 대한 검토 필요
◦
실제 데이터셋의 특징 및 분포에 따른 워터마킹 기법의 일반화 가능성에 대한 추가 연구 필요