Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Comprehensive Evaluation of Large Language Models on Mental Illnesses

Created by
  • Haebom
Category
Empty

저자

Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy, Mohammed E. Fouda

개요

본 연구는 20억에서 4050억 이상의 매개변수를 가진 33개의 대규모 언어 모델(LLM)을 대상으로, 소셜 미디어 데이터를 활용하여 정신 건강 분야의 주요 과제를 수행하는 능력을 종합적으로 평가한다. 6개의 데이터 세트를 사용하여 바이너리 장애 감지, 장애 심각도 평가, 정신과 지식 평가의 세 가지 과제에 대해 제로샷(ZS) 및 퓨샷(FS) 학습 능력을 평가했다. GPT-4, Llama 3, Claude, Gemma, Gemini, Phi-3와 같은 모델이 평가되었으며, GPT-4와 Llama 3는 바이너리 장애 감지에서 최대 85%의 정확도를 보였고, FS 학습은 Phi-3-mini 모델의 평균 절대 오차(MAE)를 1.3점 줄이는 등 장애 심각도 평가를 향상시켰다. Llama 3.1 405b 모델은 정신과 지식 평가에서 91.2%의 정확도를 보였고, 프롬프트 엔지니어링이 과제 전반에서 성능 향상에 중요한 역할을 했다.

시사점, 한계점

GPT-4와 Llama 3는 바이너리 장애 감지에서 높은 성능을 보였다.
퓨샷 학습은 장애 심각도 평가를 개선했다.
Llama 3.1 405b는 정신과 지식 평가에서 뛰어난 정확도를 보였다.
프롬프트 엔지니어링은 성능 향상에 중요하다.
많은 LLM 제공업체의 윤리적 제약으로 인해 민감한 질의에 대한 응답이 제한되어 포괄적인 성능 평가가 어렵다.
👍