Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How do data owners say no? A case study of data consent mechanisms in web-scraped vision-language AI training datasets

Created by
  • Haebom
Category
Empty

저자

Chung Peng Lee, Rachel Hong, Harry H. Jiang, Aster Plotnik, William Agnew, Jamie Morgenstern

개요

본 연구는 텍스트-이미지 생성 모델 및 비전-언어 모델 훈련에 사용되는 대규모 데이터셋인 DataComp 내 데이터 소유자의 동의 정보를 분석한다. 데이터 소유자의 데이터 사용 동의 여부와 관련된 윤리적 문제 및 저작권 침해 소송의 증가에 주목하여, DataComp 내 128억 개의 텍스트-이미지 쌍 샘플 수준 정보(저작권 고지, 워터마크, 메타데이터) 및 웹 도메인 수준 정보(이용 약관, 로봇 배제 프로토콜)를 조사한다. 연구 결과, 최소 1억 2200만 개의 샘플에서 저작권 고지가 확인되었으며, 상위 50개 도메인의 60%가 스크래핑을 금지하는 이용 약관을 가지고 있음을 발견했다. 또한, DataComp 샘플의 9~13%에서 워터마크가 발견되었으며, 기존 워터마크 탐지 방법으로는 높은 정확도로 탐지하는 데 한계가 있음을 확인했다.

시사점, 한계점

시사점:
데이터 소유자는 데이터 사용 동의를 다양한 방식으로 표현하며, 현재 AI 데이터 수집 파이프라인은 이러한 동의를 충분히 존중하지 못하고 있다.
현행 데이터셋 큐레이션/배포 방식의 한계를 보여준다.
AI 목적을 고려한 통합 데이터 동의 프레임워크의 필요성을 제기한다.
한계점:
구체적인 한계점에 대한 언급은 논문에 직접적으로 제시되지 않음. (논문 설명 요약에 따름)
👍