본 논문은 텍스트, 음향, 시각 신호를 통합하여 인간의 감정을 이해하는 다중 모드 감성 분석(MSA) 연구를 수행한다. 특히 모달리티 간 경쟁으로 인한 성능 저하 문제를 해결하기 위해, PaSE라는 새로운 프레임워크를 제안한다. PaSE는 Prototype-guided Calibration Learning (PCL)을 통해 단일 모드 표현을 정제하고 의미 일관성을 유지하며, Dual-Phase Optimization 전략과 Shapley-based Gradient Modulation (SGM)을 통해 모달리티 간의 협업을 강화한다. IEMOCAP, MOSI, MOSEI 데이터셋에 대한 실험 결과, PaSE가 우수한 성능을 보이며 모달리티 경쟁을 효과적으로 완화함을 입증한다.