Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation du conseil par IA en japonais : rôles du conseiller, du client et de l'évaluateur évalués selon des critères d'entretien motivationnel

Created by
  • Haebom

Auteur

Keita Kiuchi, Yoshikazu Fujimoto, Hideyuki Goto, Tomonori Hosokawa, Makoto Nishimura, Yosuke Sato, Izumi Sezai

Contour

Cette étude est la première à évaluer de manière exhaustive les performances des modèles linguistiques à grande échelle (LLM) dans trois rôles de conseil dans un contexte thérapeutique japonais. Nous avons évalué simultanément les systèmes d'IA des conseillers (GPT-4-turbo, Claude-3-Opus-SMDP utilisant des invites sans intervention ou des invites de conversation structurées en plusieurs étapes (SMDP), les simulations d'IA des clients et les systèmes d'IA des évaluateurs (o3, Claude-3.7-Sonnet, Gemini-2.5-pro). Des experts humains expérimentés (n = 15) ont évalué les conversations générées par l'IA à l'aide du manuel de codage MITI (Motivational Interviewing Treatment Integrity) 4.2.1. La mise en œuvre de SMDP a significativement amélioré les performances de l'IA des conseillers sur toutes les évaluations globales MITI par rapport aux invites sans intervention, sans différence significative entre GPT-SMDP et Opus-SMDP. L'IA de l'évaluateur a obtenu des performances similaires à celles des évaluateurs humains pour faciliter les conversations de changement, mais a systématiquement surestimé la désescalade des conversations de maintenance et les indicateurs de qualité globale. Gemini a montré des biais spécifiques au modèle, tels que la priorité donnée au partage du pouvoir, la priorité donnée à la compétence technique par o3 et la priorité donnée à l'expression émotionnelle par Sonnet. L'IA des clients Les simulations ont montré une gamme émotionnelle limitée et une conformité inhabituellement élevée, suggérant la nécessité d'un réalisme accru. Ces résultats constituent une référence pour le conseil assisté par IA dans d'autres langues que l'anglais et suggèrent d'importants axes d'amélioration grâce à une ingénierie avancée des invites, une génération de recherche augmentée et un réglage fin axé sur les objectifs, avec des implications importantes pour le développement d'outils de santé mentale IA adaptés aux différences culturelles.

Takeaways, Limitations

Takeaways:
Fournir la première évaluation complète de la performance du rôle de conseil du LLM dans un contexte thérapeutique en langue japonaise.
La technique d’invite SMDP s’est avérée efficace pour améliorer les performances de l’IA de conseil.
Présentation de la possibilité d’utiliser des systèmes d’évaluation de l’IA et de leurs limites (tendance à la surestimation).
Suggérez des domaines d’amélioration, notamment les biais spécifiques au modèle et le manque de réalisme dans les simulations d’IA client.
Présentation d'importants Takeaways pour le développement d'outils de santé mentale d'IA culturellement sensibles.
Limitations:
Gamme émotionnelle limitée et conformité irréaliste des simulations d'IA client.
Résultats d'évaluation incohérents de l'IA d'évaluation (notamment, relâchement du dialogue de maintenance et surestimation de la qualité globale).
Taille de l’échantillon limitée (15 experts humains).
La nécessité de prendre en compte de manière plus globale les différents types de conseil et les contextes culturels.
👍