본 논문은 대규모 언어 모델(LLM)을 다회차 대화 과제에 미세 조정하기 위한 강화 학습 프레임워크인 Savage Conversation Forests (SCF)를 제안합니다. 기존의 DPO나 GRPO와 같은 방법들은 단회차 과제에는 효과적이지만, 의료 진단 면담과 같이 초기 대화 회차가 결과에 영향을 미치는 다회차 과제에는 부적합합니다. SCF는 각 회차마다 여러 가능한 대화 지속 상황을 생성하여 모델이 초기 응답이 후속 상호 작용 및 진단 결과에 미치는 영향을 학습하도록 합니다. 의사-환자 대화 시뮬레이션 실험에서 SCF는 선형 대화 구조보다 진단 정확도가 높았으며, 이는 분기된 훈련 구조가 복잡한 다회차 대화 과제에서 LLM을 미세 조정하는 중요한 전략임을 시사합니다.