로그인

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

작성자
  • Haebom
카테고리
비어 있음

저자

Andre V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

개요

본 논문은 대규모 비전-언어 모델(VLM)의 학습 데이터에 대한 직접적인 접근 없이 저작권으로 보호되는 콘텐츠가 학습에 사용되었는지 확인하는 방법을 제시합니다. VLM이 학습 데이터셋의 이미지를 인식한다는 가정하에, 저작권 콘텐츠 포함 여부를 추론하는 새로운 접근 방식인 DIS-CO를 제안합니다. DIS-CO는 특정 저작권 콘텐츠의 프레임을 VLM에 반복적으로 질의하여 자유 형식 텍스트 완성을 통해 콘텐츠의 정체성을 추출합니다. MovieTection이라는 벤치마크를 도입하여 효과를 평가하였으며, 이는 모델의 학습 마감일 전후에 출시된 영화에서 추출한 14,000개의 프레임과 자세한 캡션으로 구성됩니다. 실험 결과, DIS-CO는 기존 최고 성능 방법의 평균 AUC를 거의 두 배 향상시켰으며, 모든 테스트 모델이 어느 정도 저작권 콘텐츠에 노출되었음을 보여줍니다. 코드와 데이터는 깃허브에서 공개합니다.

시사점, 한계점

시사점:
VLM의 학습 데이터에 대한 직접적인 접근 없이 저작권 침해 여부를 효과적으로 검증할 수 있는 새로운 방법(DIS-CO)을 제시.
기존 방법 대비 성능 향상을 실험적으로 검증.
대규모 VLM의 저작권 문제에 대한 심각성을 제기.
한계점:
MovieTection 벤치마크의 일반화 가능성에 대한 추가 검증 필요.
logits 접근 가능 여부에 따라 성능 차이가 발생할 수 있음.
모든 유형의 저작권 침해를 완벽하게 탐지할 수 없을 가능성 존재.
👍