Sign In

Assessing the Macro and Micro Effects of Random Seeds on Fine-Tuning Large Language Models

Created by
  • Haebom
Category
Empty

저자

Hao Zhou, Guergana Savova, Lijing Wang

개요

본 논문은 대규모 언어 모델(LLM) 미세 조정 시 무작위 시드의 영향을 체계적으로 평가합니다. GLUE 및 SuperGLUE 벤치마크를 사용하여, 정확도 및 F1 점수와 같은 전통적인 지표를 통해 거시적 수준의 영향을 분석하고, 평균 및 분산을 계산하여 성능 변동을 정량화합니다. 또한, 각 실행에서 개별 예측의 안정성을 측정하는 새로운 지표인 일관성을 도입하여 미시적 수준의 영향을 분석합니다. 실험 결과, 거시적 및 미시적 수준 모두에서 상당한 분산이 있음을 밝히고, 미세 조정 및 평가에서 무작위 시드를 신중하게 고려해야 함을 강조합니다.

시사점, 한계점

시사점:
LLM 미세 조정 및 평가 시 무작위 시드의 중요성을 강조합니다.
거시적(정확도, F1 점수) 및 미시적(일관성) 수준에서 무작위 시드의 영향을 정량적으로 분석하는 방법을 제시합니다.
LLM 성능의 안정성을 향상시키기 위한 시드 관리 전략 개발의 필요성을 제기합니다.
한계점:
특정 벤치마크(GLUE, SuperGLUE)와 LLM에 국한된 결과일 수 있습니다.
제시된 "일관성" 지표의 일반성 및 해석 가능성에 대한 추가 연구가 필요합니다.
다양한 LLM 아키텍처 및 미세 조정 방법론에 대한 일반화 가능성을 검증해야 합니다.
👍