Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

Created by
  • Haebom

저자

Arshia Kermani, Veronica Perez-Rosas, Vangelis Metsis

개요

본 연구는 대규모 언어 모델(LLM)을 이용한 정신 건강 텍스트 분석을 위한 세 가지 접근 방식(프롬프트 엔지니어링, 검색 증강 생성(RAG), 파인튜닝)을 체계적으로 비교 분석했습니다. LLaMA 3을 사용하여 두 개의 데이터 세트에서 감정 분류 및 정신 건강 상태 감지 작업에 대한 이러한 접근 방식을 평가했습니다. 파인튜닝은 가장 높은 정확도(감정 분류 91%, 정신 건강 상태 80%)를 달성했지만 상당한 컴퓨팅 자원과 대규모 훈련 세트가 필요했습니다. 반면 프롬프트 엔지니어링과 RAG는 중간 수준의 성능(40-68% 정확도)으로 더 유연한 배포를 제공했습니다. 이 연구 결과는 정확도, 컴퓨팅 요구 사항 및 배포 유연성 간의 절충점을 강조하여 정신 건강 응용 분야에서 LLM 기반 솔루션을 구현하기 위한 실용적인 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM 기반 정신 건강 텍스트 분석에서 파인튜닝이 가장 높은 정확도를 제공하지만, 컴퓨팅 자원과 데이터 요구량이 크다.
프롬프트 엔지니어링과 RAG는 정확도는 다소 낮지만, 유연성과 적은 자원 소모 측면에서 장점을 가진다.
정신 건강 응용 분야에서 LLM 활용 시 정확도, 자원, 유연성 간의 균형을 고려해야 함을 시사한다.
한계점:
연구에 사용된 데이터셋의 제한으로 일반화 가능성에 대한 검토가 필요하다.
LLaMA 3 이외의 다른 LLM에 대한 추가 연구가 필요하다.
프롬프트 엔지니어링과 RAG의 성능 향상을 위한 추가 연구가 필요하다.
👍