En este artículo, proponemos Bosques de Conversación Salvajes (SCF), un marco de aprendizaje por refuerzo para el ajuste fino de modelos de lenguaje a gran escala (LLM) en tareas de conversación multironda. Los métodos existentes, como DPO y GRPO, son eficaces para tareas de una sola ronda, pero no son adecuados para tareas multironda, como las entrevistas de diagnóstico médico, donde las rondas iniciales de conversación afectan los resultados. SCF genera múltiples posibles continuaciones de conversación para cada ronda, lo que permite al modelo aprender cómo las respuestas iniciales afectan las interacciones posteriores y los resultados del diagnóstico. En experimentos de simulación de conversaciones médico-paciente, SCF logra una mayor precisión diagnóstica que las estructuras de conversación lineales, lo que sugiere que la estructura de entrenamiento ramificada es una estrategia importante para el ajuste fino de los LLM en tareas complejas de conversación multironda.