Cette étude est la première à évaluer de manière exhaustive les performances des modèles linguistiques à grande échelle (LLM) dans trois rôles de conseil dans un contexte thérapeutique japonais. Nous avons évalué simultanément les systèmes d'IA des conseillers (GPT-4-turbo, Claude-3-Opus-SMDP utilisant des invites sans intervention ou des invites de conversation structurées en plusieurs étapes (SMDP), les simulations d'IA des clients et les systèmes d'IA des évaluateurs (o3, Claude-3.7-Sonnet, Gemini-2.5-pro). Des experts humains expérimentés (n = 15) ont évalué les conversations générées par l'IA à l'aide du manuel de codage MITI (Motivational Interviewing Treatment Integrity) 4.2.1. La mise en œuvre de SMDP a significativement amélioré les performances de l'IA des conseillers sur toutes les évaluations globales MITI par rapport aux invites sans intervention, sans différence significative entre GPT-SMDP et Opus-SMDP. L'IA de l'évaluateur a obtenu des performances similaires à celles des évaluateurs humains pour faciliter les conversations de changement, mais a systématiquement surestimé la désescalade des conversations de maintenance et les indicateurs de qualité globale. Gemini a montré des biais spécifiques au modèle, tels que la priorité donnée au partage du pouvoir, la priorité donnée à la compétence technique par o3 et la priorité donnée à l'expression émotionnelle par Sonnet. L'IA des clients Les simulations ont montré une gamme émotionnelle limitée et une conformité inhabituellement élevée, suggérant la nécessité d'un réalisme accru. Ces résultats constituent une référence pour le conseil assisté par IA dans d'autres langues que l'anglais et suggèrent d'importants axes d'amélioration grâce à une ingénierie avancée des invites, une génération de recherche augmentée et un réglage fin axé sur les objectifs, avec des implications importantes pour le développement d'outils de santé mentale IA adaptés aux différences culturelles.