본 논문은 주로 텍스트에 국한된 기존 공감 예측 기술의 한계를 극복하고, 멀티 모달 정보(비디오, 오디오, 텍스트)를 통합하여 공감 예측 성능을 향상시키는 새로운 방법을 제시한다. "Multi-Modal Empathy Prediction and Supervisory Documentation Assisted Training"이라는 방법을 통해, 사전 훈련된 네트워크를 활용하여 각 모달리티의 특징을 추출하고, 교차 모달 융합을 거쳐 최종적으로 공감 라벨을 예측한다. 특히, 훈련 과정에서 상담 주제와 상담자의 공감 표현을 담은 감독 문서를 특권 정보로 활용하여 텍스트 특징 추출을 개선한다.