DIS-CO: Discovering Copyrighted Content in VLMs Training Data

작성자

Haebom

카테고리

비어 있음

저자

Andre V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

개요

본 논문은 대규모 비전-언어 모델(VLM)의 학습 데이터에 대한 직접적인 접근 없이 저작권으로 보호되는 콘텐츠가 학습에 사용되었는지 확인하는 방법을 제시합니다. VLM이 학습 데이터셋의 이미지를 인식한다는 가정하에, 저작권 콘텐츠 포함 여부를 추론하는 새로운 접근 방식인 DIS-CO를 제안합니다. DIS-CO는 특정 저작권 콘텐츠의 프레임을 VLM에 반복적으로 질의하여 자유 형식 텍스트 완성을 통해 콘텐츠의 정체성을 추출합니다. MovieTection이라는 벤치마크를 도입하여 효과를 평가하였으며, 이는 모델의 학습 마감일 전후에 출시된 영화에서 추출한 14,000개의 프레임과 자세한 캡션으로 구성됩니다. 실험 결과, DIS-CO는 기존 최고 성능 방법의 평균 AUC를 거의 두 배 향상시켰으며, 모든 테스트 모델이 어느 정도 저작권 콘텐츠에 노출되었음을 보여줍니다. 코드와 데이터는 깃허브에서 공개합니다.