When LLMs get significantly worse: A statistical approach to detect model degradations

Created by

Haebom

저자

Jonas Kubler, Kailash Budhathoki, Matthaus Kleindessner, Xiong Zhou, Junming Yin, Ashish Khetan, George Karypis

💡 개요

본 논문은 거대 언어 모델(LLM)의 추론 비용 및 지연 시간 감소를 위한 최적화 과정에서 모델 품질 저하를 탐지하는 통계적 접근법을 제안합니다. 제안된 방법론은 McNemar 검정에 기반한 가설 검정 프레임워크를 활용하여, 개별 샘플의 모델 점수를 비교함으로써 실제 모델 성능 저하를 효과적으로 감지하고 잘못된 양성(false positive)을 제어합니다. 연구 결과, 0.3% 수준의 미미한 정확도 저하도 실제 모델 성능 저하로 자신 있게 판별할 수 있음을 입증했습니다.

🔑 시사점 및 한계

•

LLM 최적화 시 모델 성능 저하를 통계적으로 유의미하게 탐지하는 프레임워크를 제공합니다.

•

개별 샘플 단위의 비교를 통해 미세한 성능 저하도 포착 가능함을 보여줍니다.

•

이론적으로 무손실 최적화가 실제로 모델 성능을 저하시키는지 여부를 객관적으로 판단하는 기준을 제시합니다.

•

다양한 벤치마크의 결과를 단일 결정으로 통합하는 방법을 제시합니다.

•

제안된 방법론은 특정 통계적 가정에 기반하므로, 복잡하거나 비정형적인 성능 변화 패턴에는 적용이 제한될 수 있습니다.

PDF 보기

Made with Slashpage