본 논문은 감정적 지지 대화(ESC)에서 장기적인 만족도를 높이기 위해 강화학습 기반의 새로운 프레임워크인 straQ를 제안합니다. 기존의 대규모 언어 모델(LLM) 기반 ESC 연구들이 상태 모델 관점에서 설계되지 않아 장기적인 만족도를 고려하지 못하는 한계를 지적하며, straQ는 Q-learning을 활용하여 LLM의 계획 수립, 최적 전략 결정, 응답 안내를 수행합니다. 다양한 기준 모델(직접 추론, 자기 개선, 사고 연쇄, 미세 조정, 유한 상태 기계)과의 비교 실험 결과, straQ*가 우수한 성능을 보임을 확인했습니다.