Sign In

Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Created by
  • Haebom
Category
Empty

μ €μž

Xinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

πŸ’‘ κ°œμš”

이 μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 지식 증λ₯˜κ°€ λ¬΄λ‹¨μœΌλ‘œ 이루어져 개발 λΉ„μš©κ³Ό λ…Έλ ₯을 λΆ€λ‹Ήν•˜κ²Œ μ΄μš©ν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 연ꡬ진은 ꡐ사 λͺ¨λΈμ΄ μƒμ„±ν•˜λŠ” μΆ”λ‘  과정을 μˆ˜μ •ν•˜μ—¬, 첫째, 무단 증λ₯˜λ‘œ μΈν•œ ν•™μŠ΅ μœ μš©μ„±μ„ μ €ν•˜μ‹œν‚€λŠ” '반증λ₯˜(anti-distillation)' 기법을, λ‘˜μ§Έ, 학생 λͺ¨λΈμ— 검증 κ°€λŠ₯ν•œ μ„œλͺ…을 μ‚½μž…ν•˜λŠ” 'API μ›Œν„°λ§ˆν‚Ή' 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, κ°„λ‹¨ν•œ λͺ…λ Ήμ–΄ 기반 μž¬μž‘μ„± 방식이 ꡐ사 μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ ν–₯μƒμ‹œν‚€λ©΄μ„œλ„ 효과적인 반증λ₯˜ 효과λ₯Ό λ³΄μ˜€μœΌλ©°, 신뒰도 높은 μ›Œν„°λ§ˆν¬ 탐지가 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 지식 증λ₯˜ κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 무단 ν™œμš© 문제λ₯Ό 효과적으둜 λ°©μ§€ν•  수 μžˆλŠ” μ‹€μš©μ μΈ 기법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μΆ”λ‘  κ³Όμ • μˆ˜μ • 방식을 톡해 ꡐ사 λͺ¨λΈμ˜ μ„±λŠ₯을 μœ μ§€ν•˜λ©΄μ„œλ„ 증λ₯˜ λͺ¨λΈμ˜ ν•™μŠ΅ μœ μš©μ„±μ„ μ €ν•˜μ‹œν‚€λŠ” '반증λ₯˜'와 'API μ›Œν„°λ§ˆν‚Ή'을 λ™μ‹œμ— κ΅¬ν˜„ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법이 LLM의 μ„±λŠ₯μ΄λ‚˜ μ‘λ‹΅μ˜ 의미둠적 일관성을 크게 ν•΄μΉ˜μ§€ μ•ŠμœΌλ©΄μ„œλ„ 효과λ₯Ό λ°œνœ˜ν•  수 μžˆμ§€λ§Œ, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 λ‹€λ₯Έ μ’…λ₯˜μ˜ 곡격에 λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 좔가적인 λ³΄μ•ˆ 강건성 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘