본 논문은 현대 텍스트-이미지 또는 비전-언어 모델 훈련에 사용되는 대규모 웹 데이터 수집 방식이 데이터 소유자의 의사를 적절히 존중하는지에 대한 문제를 제기한다. DataComp 데이터세트(128억 개의 텍스트-이미지 쌍)를 대상으로 저작권 고지, 워터마크, 메타데이터와 같은 샘플 수준 정보와 웹사이트 이용 약관(ToS) 및 Robots Exclusion Protocol과 같은 웹 도메인 수준 정보를 조사하여 데이터 소유자의 동의 표시를 분석한다. 연구 결과, 최소 1억 2,200만 개의 샘플에서 저작권 고지 표시가 나타났고, 상위 50개 도메인의 60%가 스크래핑을 금지하는 ToS를 가진 웹사이트에서 비롯되었으며, 9-13%의 샘플에서 워터마크가 발견되었으나 기존 워터마크 감지 방법으로는 높은 정확도로 감지하기 어려웠다. 이러한 결과는 현재의 데이터 수집 방식이 데이터 소유자의 동의를 완전히 존중하지 않음을 보여주며, AI 목적을 고려한 통합 데이터 동의 프레임워크의 필요성을 강조한다.