본 논문은 Wav2Vec 2.0과 같은 사전 훈련된 대규모 변환기 모델을 활용한 음성 감정 인식의 효율적인 미세 조정 기법을 제시합니다. 차원적 감정 인식(활성도, valence)에 초점을 맞춰, 전체 미세 조정, 부분 미세 조정(변환기 계층 일부), 혼합 정밀도 미세 조정, 캐싱을 활용한 부분 미세 조정, 저랭크 적응(LoRA) 등 다양한 기법을 비교 분석했습니다. 그 결과, 혼합 정밀도를 사용한 부분 미세 조정이 전체 미세 조정과 비슷한 성능을 유지하면서 훈련 속도를 67% 향상시켰고, 중간 표현 캐싱을 추가하면 속도는 88%, 학습 가능한 매개변수는 71% 감소하는 것을 확인했습니다. 최적의 성능과 효율을 위해 마지막 세 개의 변환기 계층을 혼합 정밀도로 미세 조정하고 중간 표현 캐싱을 추가하는 것을 권장합니다.