LLM Stability: A detailed analysis with some surprises
Created by
Haebom
저자
Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin
개요
본 논문은 결정론적 설정에서 동일한 입력에 대해 LLM의 출력이 변하는 비결정론적 현상을 체계적으로 조사한 연구입니다. 5개의 LLM을 대상으로 8가지 일반적인 작업에 대해 10회 반복 실행하여(제로샷 및 퓨샷 설정) 비결정론의 영향을 분석했습니다. 그 결과, 자연 발생적인 실행 간 최대 15%의 정확도 변화와 최고 성능과 최저 성능 간 최대 70%의 차이를 발견했습니다. 어떤 LLM도 모든 작업에서 일관된 정확도를 제공하지 못했으며, 동일한 출력 문자열을 생성하지도 못했습니다. 연구진은 비결정론이 컴퓨팅 자원의 효율적인 사용과 관련이 있을 수 있음을 시사하며, 비결정론을 정량화하기 위한 새로운 지표 TARr@N과 TARa@N을 제안했습니다.