본 논문은 감정적 지지를 위한 대화(ESC)에서 대규모 언어 모델(LLM)의 성능 향상을 목표로 한다. 기존 연구들이 장기적인 만족도를 고려하지 않고 단편적인 해결책을 제시하는 한계를 극복하기 위해, Q-학습을 활용한 새로운 프레임워크 straQ를 제안한다. straQ는 LLM에 계획 능력을 부여하여 장기적인 보상을 기반으로 최적의 대응 전략을 결정하고, 이를 통해 LLM의 응답을 유도한다. 실험 결과, straQ*는 직접 추론, 자기 개선, 사고 연쇄, 미세 조정, 유한 상태 기계 등 기존 방법들을 능가하는 성능을 보였다.