Yash Savani, Asher Trockman, Zhili Feng, Yixuan Even Xu, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
개요
확장된 추론 흔적을 생성하는 프론티어 모델은 의도치 않게 모델 증류를 용이하게 하는 풍부한 토큰 시퀀스를 생성한다. 이러한 취약점을 인식하여 모델 소유자는 모델 성능을 저하시키지 않으면서 증류의 효과를 제한하는 샘플링 전략을 모색할 수 있다. Antidistillation 샘플링은 바로 이러한 기능을 제공한다. 모델의 다음 토큰 확률 분포를 전략적으로 수정함으로써 antidistillation 샘플링은 추론 흔적을 '독'으로 만들어 증류에 대한 효과를 현저히 떨어뜨리는 동시에 모델의 실제 유용성은 유지한다.