본 논문은 대규모 언어 모델(LLM) 미세 조정 시 무작위 시드의 영향을 체계적으로 평가합니다. GLUE 및 SuperGLUE 벤치마크를 사용하여, 정확도 및 F1 점수와 같은 전통적인 지표를 통해 거시적 수준의 영향을 분석하고, 평균 및 분산을 계산하여 성능 변동을 정량화합니다. 또한, 각 실행에서 개별 예측의 안정성을 측정하는 새로운 지표인 일관성을 도입하여 미시적 수준의 영향을 분석합니다. 실험 결과, 거시적 및 미시적 수준 모두에서 상당한 분산이 있음을 밝히고, 미세 조정 및 평가에서 무작위 시드를 신중하게 고려해야 함을 강조합니다.