Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Created by

Haebom

저자

Xinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

💡 개요

이 연구는 대규모 언어 모델(LLM)의 지식 증류가 무단으로 이루어져 개발 비용과 노력을 부당하게 이용하는 문제를 해결하고자 합니다. 연구진은 교사 모델이 생성하는 추론 과정을 수정하여, 첫째, 무단 증류로 인한 학습 유용성을 저하시키는 '반증류(anti-distillation)' 기법을, 둘째, 학생 모델에 검증 가능한 서명을 삽입하는 'API 워터마킹' 기법을 제안합니다. 실험 결과, 간단한 명령어 기반 재작성 방식이 교사 성능을 유지하거나 향상시키면서도 효과적인 반증류 효과를 보였으며, 신뢰도 높은 워터마크 탐지가 가능함을 입증했습니다.

🔑 시사점 및 한계

•

LLM의 지식 증류 과정에서 발생하는 무단 활용 문제를 효과적으로 방지할 수 있는 실용적인 기법을 제시합니다.

•

추론 과정 수정 방식을 통해 교사 모델의 성능을 유지하면서도 증류 모델의 학습 유용성을 저하시키는 '반증류'와 'API 워터마킹'을 동시에 구현할 수 있음을 보여줍니다.

•

제안된 방법이 LLM의 성능이나 응답의 의미론적 일관성을 크게 해치지 않으면서도 효과를 발휘할 수 있지만, 다양한 LLM 아키텍처 및 다른 종류의 공격에 대한 일반화 가능성 및 추가적인 보안 강건성 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage