본 논문은 대규모 언어 모델(LLM) 훈련 데이터에 저작권 침해 콘텐츠가 무단으로 포함되는 문제에 대응하기 위해, 콘텐츠 제작자가 자신의 작품이 LLM 훈련 데이터셋에 사용되었는지 여부를 확인할 수 있는 오픈 소스 저작권 감지 플랫폼을 제시한다. 기존의 계산 집약적인 저작권 감지 프레임워크의 한계를 극복하고 사용 편의성, 유사성 감지 개선, 데이터셋 유효성 검사 최적화, 효율적인 API 호출을 통한 계산 부담 감소(10-30%)를 목표로 한다. 직관적인 사용자 인터페이스와 확장 가능한 백엔드를 통해 AI 개발의 투명성을 높이고, 윤리적 규정 준수를 지원하며, 책임감 있는 AI 개발 및 저작권 보호를 위한 추가 연구의 기반을 마련한다.