본 논문은 신뢰할 수 있는 자동 감정 인식(AER)을 위해 음성과 뇌파(EEG)를 결합한 새로운 접근 방식을 제안합니다. 음성은 직관적이지만 조작 가능하고, EEG는 신뢰할 수 있지만 실용성이 떨어지는 한계를 극복하기 위해, 두 모달리티를 함께 학습시켜 음성만으로도 감정을 정확하게 인식하는 것을 목표로 합니다. 이를 위해 두 단계의 공동 다중 모달 학습 접근 방식(JMML)을 제안합니다. 첫 번째 단계에서는 각 모달리티에 대해 독립적으로 학습하고, 두 번째 단계에서는 확장된 깊은 정준 상관 다중 모달 오토인코더(E-DCC-CAE)를 사용하여 두 모달리티를 공통 표현 공간으로 매핑하여 상호 상관관계를 극대화합니다. 이렇게 생성된 감정 임베딩은 음성 기반 AER의 성능을 향상시킵니다. 실험 결과는 제안된 접근 방식의 효과를 보여줍니다.