본 논문은 고전 중국시의 감정 분석을 위한 방언 강화 다중 모달 프레임워크를 제안합니다. 기존 연구들이 텍스트 의미에만 초점을 맞춘 것과 달리, 낭송 및 그림과의 결합 등 고전 중국시의 운율 및 시각적 특징을 고려하여 감정 분석을 수행합니다. 여러 방언의 오디오 특징을 추출하고, 시각적 특징을 생성하여, LLM 기반 번역으로 향상된 텍스트 특징과 다중 모달 대조 표현 학습을 통해 융합합니다. 두 개의 공개 데이터셋에서 최첨단 방법보다 정확도 2.51% 이상, Macro F1 1.63% 이상 향상된 성능을 달성하였으며, 코드를 공개하여 연구를 지원합니다.