본 연구는 텍스트-이미지 생성 모델 및 비전-언어 모델 훈련에 사용되는 대규모 데이터셋인 DataComp 내 데이터 소유자의 동의 정보를 분석한다. 데이터 소유자의 데이터 사용 동의 여부와 관련된 윤리적 문제 및 저작권 침해 소송의 증가에 주목하여, DataComp 내 128억 개의 텍스트-이미지 쌍 샘플 수준 정보(저작권 고지, 워터마크, 메타데이터) 및 웹 도메인 수준 정보(이용 약관, 로봇 배제 프로토콜)를 조사한다. 연구 결과, 최소 1억 2200만 개의 샘플에서 저작권 고지가 확인되었으며, 상위 50개 도메인의 60%가 스크래핑을 금지하는 이용 약관을 가지고 있음을 발견했다. 또한, DataComp 샘플의 9~13%에서 워터마크가 발견되었으며, 기존 워터마크 탐지 방법으로는 높은 정확도로 탐지하는 데 한계가 있음을 확인했다.