Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria

Created by
  • Haebom

저자

Keita Kiuchi, Yoshikazu Fujimoto, Hideyuki Goto, Tomonori Hosokawa, Makoto Nishimura, Yosuke Sato, Izumi Sezai

개요

본 연구는 일본어 치료 환경에서 세 가지 상담 역할에 걸쳐 대규모 언어 모델(LLM)의 성능을 종합적으로 평가한 최초의 연구입니다. 상담사 AI 시스템(제로샷 프롬프팅 또는 구조화된 다단계 대화 프롬프트(SMDP)를 사용한 GPT-4-turbo, Claude-3-Opus-SMDP), 클라이언트 AI 시뮬레이션, 그리고 평가 AI 시스템(o3, Claude-3.7-Sonnet, Gemini-2.5-pro)을 동시에 평가했습니다. 상담 경험이 풍부한 인간 전문가(n=15)는 동기적 면담 치료 무결성(MITI) 코딩 매뉴얼 4.2.1을 사용하여 AI가 생성한 대화를 평가했습니다. SMDP 구현은 제로샷 프롬프팅과 비교하여 모든 MITI 전반적 평가에서 상담사 AI의 성능을 크게 향상시켰으며, GPT-SMDP와 Opus-SMDP 간에는 유의미한 차이가 없었습니다. 평가 AI는 변화 대화 촉진에 있어 인간 평가자와 비슷한 성능을 보였지만, 유지 대화 완화 및 전반적인 품질 지표를 체계적으로 과대평가했습니다. Gemini는 권력 공유를, o3는 기술적 능숙함을, Sonnet은 감정 표현을 우선시하는 등 모델별 편향이 나타났습니다. 클라이언트 AI 시뮬레이션은 감정 범위가 제한적이고 비정상적으로 높은 순응도를 보여 현실감 향상의 필요성을 시사했습니다. 이러한 결과는 비영어권 AI 지원 상담에 대한 벤치마크를 설정하고, 고급 프롬프트 엔지니어링, 검색 증강 생성, 그리고 목표 지향적 미세 조정을 통해 개선해야 할 중요한 영역을 제시하며, 문화적으로 민감한 AI 정신 건강 도구 개발에 중요한 의미를 갖습니다.

시사점, 한계점

시사점:
일본어 치료 환경에서 LLM의 상담 역할 수행 성능에 대한 최초의 종합적 평가 제공.
SMDP 프롬프팅 기법이 상담 AI 성능 향상에 효과적임을 입증.
평가 AI 시스템 활용 가능성과 그 한계(과대평가 경향) 제시.
모델별 편향 및 클라이언트 AI 시뮬레이션의 현실감 부족 등 개선 필요 영역 제시.
문화적으로 민감한 AI 정신 건강 도구 개발을 위한 중요한 시사점 제시.
한계점:
클라이언트 AI 시뮬레이션의 감정 범위 제한 및 비현실적인 높은 순응도.
평가 AI의 일관되지 않은 평가 결과(특히, 유지 대화 완화 및 전반적 품질 과대평가).
샘플 사이즈(인간 전문가 15명)의 제한.
다양한 상담 유형 및 문화적 배경을 더욱 포괄적으로 고려할 필요성.
👍