Data Laundering: Artificially Boosting Benchmark Results through Knowledge Distillation
Created by
Haebom
저자
Jonibek Mansurov, Akhmed Sakip, Alham Fikri Aji
개요
본 논문은 지식 증류(knowledge distillation) 기법이 언어 모델 벤치마크 점수 조작에 악용될 수 있음을 보여줍니다. 연구진은 "데이터 세탁(Data Laundering)"이라는 기법을 소개하는데, 이는 중간 과정의 훈련을 통해 벤치마크 특화 지식을 은밀하게 전달하는 방법입니다. 2-layer BERT 모델을 사용한 실험을 통해, 이 기법이 진정한 추론 능력 향상 없이 벤치마크 정확도를 크게 높일 수 있음(GPQA에서 최대 75%)을 증명합니다. 의도적 또는 비의도적으로 악용될 수 있으며, 연구자들이 이를 모르고 점수를 부풀릴 가능성도 제기합니다. 따라서 AI 평가 방법의 강화 필요성을 강조하며, AI 개발에서 평가의 무결성에 대한 논의에 기여하고자 합니다. 코드는 https://github.com/mbzuai-nlp/data_laundering 에서 확인할 수 있습니다.