Este estudio es el primero en evaluar de manera integral el desempeño de los modelos de lenguaje a gran escala (LLMs) en tres roles de asesoramiento en un entorno terapéutico japonés. Evaluamos simultáneamente los sistemas de IA del consejero (GPT-4-turbo, Claude-3-Opus-SMDP usando indicaciones de disparo cero o indicaciones de conversación estructurada de varios pasos (SMDP), simulaciones de IA del cliente y sistemas de IA del evaluador (o3, Claude-3.7-Sonnet, Gemini-2.5-pro). Expertos humanos experimentados (n = 15) evaluaron las conversaciones generadas por IA usando el Manual de codificación de integridad del tratamiento de entrevistas motivacionales (MITI) 4.2.1. La implementación de SMDP mejoró significativamente el desempeño de la IA del consejero en todas las evaluaciones globales de MITI en comparación con las indicaciones de disparo cero, sin diferencias significativas entre GPT-SMDP y Opus-SMDP. La IA del evaluador se desempeñó de manera similar a los calificadores humanos al facilitar las conversaciones de cambio, pero sobreestimó sistemáticamente la desescalada de la conversación de mantenimiento y las métricas de calidad general. Gemini mostró sesgos específicos del modelo, como priorizar el reparto de poder, o3 priorizar la competencia técnica y Sonnet priorizar la expresión emocional. Las simulaciones de IA del cliente mostraron un rango emocional limitado y una adherencia inusualmente alta, lo que sugiere la necesidad de mejorar el realismo. Estos resultados establecen un punto de referencia para la consejería asistida por IA en idiomas distintos del inglés y sugieren importantes áreas de mejora mediante ingeniería avanzada de indicaciones, generación de búsqueda aumentada y ajuste preciso por objetivos, con importantes implicaciones para el desarrollo de herramientas de IA para la salud mental con sensibilidad cultural.