본 논문은 대규모 언어 모델(LLM)의 한계를 보완하여, 감정적이고 목표 지향적인 상황(예: 마케팅 대화)에서 능동적 추론과 동적 지식 기반을 활용하는 다중 모드 감성 대화 에이전트 AffectMind를 제안한다. AffectMind는 텍스트, 시각 및 운율에서 사실적 및 감성적 맥락을 지속적으로 업데이트하는 Proactive Knowledge Grounding Network(PKGN), 사용자 감정과 구매 의도를 함께 모델링하여 설득 전략을 조정하는 Emotion-Intent Alignment Model(EIAM), 사용자 응답으로부터 강화 신호를 통해 감정적 일관성과 참여를 최적화하는 Reinforced Discourse Loop(RDL)로 구성된다. 두 개의 새로운 마케팅 대화 데이터셋(MM-ConvMarket 및 AffectPromo)에 대한 실험 결과, AffectMind가 감정적 일관성(+26%), 설득 성공률(+19%), 장기적 사용자 참여(+23%) 측면에서 LLM 기반 기준선을 능가하여, 감정에 기반한 능동성이 상업적 다중 모드 에이전트의 핵심 능력임을 입증했다.