자연스러운 환경에서의 음성 감정 인식(SER)은 본질적인 변동성, 다양한 녹음 조건, 클래스 불균형으로 인해 어려움을 겪고 있습니다. 이러한 복잡성에 초점을 맞춘 Interspeech Naturalistic SER Challenge 참가자로서, 음성 기반, 텍스트 기반 및 음성-텍스트 모델을 통합한 Abhinaya 시스템을 제시합니다. 본 접근 방식은 자기 지도 학습 및 음성 대규모 언어 모델(SLLM)을 음성 표현을 위해 미세 조정하고, 대규모 언어 모델(LLM)을 텍스트 맥락에 활용하며, SLLM을 사용한 음성-텍스트 모델링을 통해 미묘한 감정적 단서를 포착합니다. 클래스 불균형을 해결하기 위해 맞춤형 손실 함수를 적용하고 다수결 투표를 통해 범주적 결정을 생성합니다. 하나의 모델이 완전히 훈련되지 않았음에도 불구하고, Abhinaya 시스템은 166개의 제출물 중 4위를 차지했습니다. 훈련 완료 후, 발표된 결과 중 최첨단 성능을 달성하여 실제 조건에서 SER에 대한 본 접근 방식의 효과를 입증했습니다.