본 논문은 감정적 지지를 위한 대화(ESC)에서 대규모 언어 모델(LLM)의 성능 향상을 목표로 합니다. 기존 연구들이 장기적인 만족도를 고려하지 않고 단순히 대화를 생성하는 데 집중한 한계를 극복하기 위해, Q-learning 기반의 새로운 프레임워크 straQ를 제안합니다. straQ는 LLM에 계획 기능을 추가하여 장기적인 보상을 극대화하는 최적의 대응 전략을 결정하고, 이를 통해 LLM의 응답을 안내합니다. 실험 결과, straQ*는 직접 추론, 자기 개선, 사고 연쇄, 미세 조정, 유한 상태 기계 등 기존 방법들을 능가하는 성능을 보였습니다.