Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance

Created by
  • Haebom

作者

Abdelrahman A. Ali, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda

概要

この研究は、大規模言語モデル(LLM)を活用して、うつ病と外傷後ストレス障害(PTSD)診断の精度を高めることを目的としています。テキストとオーディオの2つのモダリティを使用して、E-DAICデータセットに基づいてGemini 1.5 ProとGPT-4o miniなどのLLM性能を評価しました。具体的には、モダリティ統合が診断精度向上に与える影響を、Modal Superiority ScoreとDisagreement Resolvement Scoreという新しい指標を用いて分析した。その結果、Gemini 1.5 Proモデルは、テキストとオーディオモダリティを組み合わせたときのバイナリうつ病分類でF1スコア0.67、バランス精度77.4%を達成し、シングルモダリティ使用時よりも性能が向上し、これはゼロショット推論で達成された結果である。さらに、さまざまな課題(バイナリ、重症度、多重分類)とプロンプトの変形によるパフォーマンスの変化を分析しました。

Takeaways、Limitations

Takeaways:
LLMを活用したダモダル精神健康診断の可能性を提示。
テキストとオーディオモダリティの統合により、診断精度が向上する可能性を確認します。
ゼロショット推論を通じてモデルの堅牢性を証明
Gemini 1.5 ProとGPT-4o miniモデルの優れた性能確認
Limitations:
E-DAICデータセットを1つだけ使用することで一般化の可能性を制限します。
使用された指標(Modal Superiority Score、Disagreement Resolvement Score)が新しい指標であるため、追加の検証が必要。
実際の臨床環境での適用可能性に関するさらなる研究の必要性
特定モデルに対する偏向性の可能性
👍