Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How do data owners say no? A case study of data consent mechanisms in web-scraped vision-language AI training datasets

Created by
  • Haebom
Category
Empty

저자

Chung Peng Lee, Rachel Hong, Harry Jiang, Aster Plotnik, William Agnew, Jamie Morgenstern

개요

본 논문은 현대 텍스트-이미지 또는 비전-언어 모델 훈련에 사용되는 대규모 웹 데이터 수집 방식이 데이터 소유자의 의사를 적절히 존중하는지에 대한 문제를 제기한다. DataComp 데이터세트(128억 개의 텍스트-이미지 쌍)를 대상으로 저작권 고지, 워터마크, 메타데이터와 같은 샘플 수준 정보와 웹사이트 이용 약관(ToS) 및 Robots Exclusion Protocol과 같은 웹 도메인 수준 정보를 조사하여 데이터 소유자의 동의 표시를 분석한다. 연구 결과, 최소 1억 2,200만 개의 샘플에서 저작권 고지 표시가 나타났고, 상위 50개 도메인의 60%가 스크래핑을 금지하는 ToS를 가진 웹사이트에서 비롯되었으며, 9-13%의 샘플에서 워터마크가 발견되었으나 기존 워터마크 감지 방법으로는 높은 정확도로 감지하기 어려웠다. 이러한 결과는 현재의 데이터 수집 방식이 데이터 소유자의 동의를 완전히 존중하지 않음을 보여주며, AI 목적을 고려한 통합 데이터 동의 프레임워크의 필요성을 강조한다.

시사점, 한계점

데이터 소유자의 데이터 사용 동의에 대한 고려 부족은 윤리적 문제뿐 아니라 저작권 침해 소송으로 이어진다.
DataComp 데이터세트 분석을 통해 데이터 소유자의 동의 표시가 다양한 채널을 통해 이루어짐을 확인했다.
현재의 AI 데이터 수집 파이프라인이 이러한 동의 표시를 완전히 존중하지 못하고 있다.
현재의 데이터 큐레이션/배포 방식의 한계를 보여준다.
AI 목적을 고려한 통합 데이터 동의 프레임워크의 필요성을 제기한다.
워터마크 감지 방법의 한계점을 지적한다.
👍