본 논문은 대규모 언어 모델(LLM)이 교육 환경에서 지능형 튜터로 전환되는 상황에서, 기존의 지도 학습 방식의 한계를 극복하고 동적 적응 능력을 갖춘 튜터를 개발하기 위해 제안된 Unidirectional Cognitive Optimization (UCO) 방법을 제시한다. UCO는 학생들의 진정한 이해도를 평가하고, 학생의 인지 발달 수준에 맞춰 튜터링 전략을 동적으로 조정하기 위해, Progress Reward와 Scaffold Reward라는 두 가지 보상 함수를 활용하는 다중 턴 상호 작용 강화 학습 패러다임을 사용한다. BigMath 및 MathTutorBench 벤치마크를 통해 UCO 모델의 성능을 평가한 결과, 동등한 규모의 다른 모델들보다 우수한 성능을 보였고, 고급 상용 모델과 유사한 수준의 성능을 달성했다.