Yash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
개요
본 논문은 확장된 추론 과정을 생성하는 최첨단 모델들이 모델 증류를 용이하게 하는 풍부한 토큰 시퀀스를 생성하는 취약성을 다룹니다. 이러한 취약성을 인식한 모델 소유자는 모델 성능 저하 없이 증류의 효과를 제한하는 샘플링 전략을 찾을 수 있습니다. 반증류 샘플링(Antidistillation sampling)은 모델의 다음 토큰 확률 분포를 전략적으로 수정하여 추론 과정을 "오염"시킴으로써, 모델의 실용성을 유지하면서 증류에 대한 효과를 크게 감소시키는 기능을 제공합니다. 자세한 내용은 https://antidistillation.com 에서 확인할 수 있습니다.