본 논문은 대규모 언어 모델(LLM)이 치료, 교육, 소셜 롤플레이와 같은 대화형 환경에서 인간 사용자를 시뮬레이션하는 데 사용될 때 발생하는 문제, 즉 페르소나 일관성 부족을 해결하기 위한 프레임워크를 제시한다. 논문은 세 가지 자동 메트릭(prompt-to-line, line-to-line, Q&A 일관성)을 정의하여 페르소나 이탈을 측정하고, 이를 보상 신호로 사용하여 멀티턴 강화 학습을 통해 LLM을 미세 조정한다. 그 결과, 일관성이 55% 이상 개선되어 더욱 일관되고 충실한 시뮬레이션된 사용자를 생성한다.