본 논문은 대규모 언어 모델(LLM)을 심리치료에 적용하는 연구를 바탕으로, 기존의 텍스트 기반 CBT 모델의 한계인 내담자 저항 문제를 해결하기 위해 다중 모달 접근 방식을 제시한다. 비언어적 단서(얼굴 이미지)를 통합하여 AI 치료사가 내담자의 부정적 정서 상태에 더 잘 맞춰 반응하도록 한다. 새로운 합성 데이터셋인 Mirror를 생성하고, 이를 이용하여 얼굴 표정을 분석하고 감정을 추론하여 공감적인 반응을 생성하는 Vision-Language Model(VLM)을 훈련시켰다. 실험 결과, Mirror 데이터셋을 사용한 VLM이 기존 텍스트 기반 CBT 접근 방식보다 저항 관리 능력이 뛰어나다는 것을 보여준다.