본 논문은 대규모 언어 모델(LLM)과 몬테 카를로 트리 탐색(MCTS)을 결합하여 심리 상담과 같은 개방형 대화에 적용하는 새로운 프레임워크인 MCTSr-Zero를 제안합니다. 기존의 결과 지향적 MCTS 접근 방식의 한계를 극복하기 위해, MCTSr-Zero는 '도메인 정렬'이라는 혁신적인 기법을 도입하여 MCTS의 탐색 목표를 사전 정의된 최종 상태가 아닌 공감과 같은 도메인 원칙에 부합하는 대화 경로로 전환합니다. 또한, '재생성'과 '메타 프롬프트 적응' 메커니즘을 통해 MCTS가 근본적으로 다른 초기 대화 전략을 고려할 수 있도록 탐색 범위를 크게 확장합니다. 심리 상담 분야에 MCTSr-Zero를 적용하여 다회차 대화 데이터를 생성하고, 이를 사용하여 PsyLLM이라는 LLM을 미세 조정했습니다. 더불어, 다회차 심리 상담 대화를 평가하기 위한 벤치마크인 PsyEval도 제시합니다. 실험 결과, PsyLLM은 PsyEval 및 기타 관련 지표에서 최첨단 성능을 달성하여 MCTSr-Zero가 인간 중심 도메인을 위한 고품질의 원칙 준수 대화 데이터를 생성하고 복잡한 심리적 표준을 일관되게 준수해야 하는 LLM의 과제를 해결하는 데 효과적임을 입증했습니다.