Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria

Created by
  • Haebom

作者

ケイタキウチ、ヨシカウフジモト、ヒデユキゴト、トモノリホソカワ、マコトニシムラ、ヨウケサト、イズミセザイ

概要

本研究は、日本語治療環境における三つの相談の役割にわたって大規模言語モデル(LLM)の性能を総合的に評価した最初の研究です。カウンセラーのAIシステム(ゼロショットプロンプトまたは構造化多段階会話プロンプト(SMDP)を使用したGPT-4-turbo、Claude-3-Opus-SMDP)、クライアントAIシミュレーション、および評価AIシステム(o3、Claude-3.7-Sonnet、Gemini-2.5-pro)を同時に評価しました。カウンセリング経験豊富な人間専門家(n = 15)は、同期インタビューの完全性(MITI)コーディングマニュアル4.2.1を使用してAIによって作成された会話を評価しました。 SMDPの実装は、ゼロショットプロンプトと比較して、すべてのMITI全体の評価でカウンセラーAIのパフォーマンスを大幅に向上させ、GPT-SMDPとOpus-SMDPの間に有意な違いはありませんでした。評価AIは変化対話促進において人間評価者と同様の性能を示したが、維持対話緩和及び全体的な品質指標を体系的に過大評価した。 Geminiは権力共有を、o3は技術的上手さを、Sonnetは感情表現を優先するなど、モデル別の偏りが現れました。クライアントAIシミュレーションは、感情の範囲が限られており、異常に高いコンプライアンスを示し、現実感を向上させる必要性を示唆しています。これらの結果は、英語以外のAIサポートカウンセリングのベンチマークを確立し、高度なプロンプトエンジニアリング、検索拡張の作成、および目標指向の微調整を介して改善する必要がある重要な分野を提示し、文化的に敏感なAIメンタルヘルスツールの開発に重要な意味を持ちます。

Takeaways、Limitations

Takeaways:
日本語治療環境におけるLLMのカウンセリングの役割遂行性能の最初の総合評価を提供
SMDPプロンプト技術がカウンセリングAIパフォーマンスの向上に有効であることを証明しました。
評価AIシステムの活用可能性とその限界(過大評価傾向)提示。
モデル別偏向やクライアントAIシミュレーションの現実感不足など、改善が必要な領域を提示。
文化的に敏感なAIメンタルヘルスツール開発のための重要なTakeaways提示。
Limitations:
クライアントAIシミュレーションの感情範囲制限と非現実的で高いコンプライアンス
評価AIの一貫性のない評価結果(特に、メンテナンス対話緩和と全体的な品質過大評価)。
サンプルサイズ(人間専門家15名)の制限。
さまざまなカウンセリングの種類と文化的背景をより包括的に検討する必要性。
👍