Sign In

Thousand Voices of Trauma: A Large-Scale Synthetic Dataset for Modeling Prolonged Exposure Therapy Conversations

Created by
  • Haebom
Category
Empty

저자

Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill

개요

본 논문은 외상 후 스트레스 장애(PTSD) 치료를 위한 연장 노출 요법(Prolonged Exposure therapy) 프로토콜을 기반으로 생성된 3,000개의 치료 대화를 포함하는 합성 벤치마크 데이터셋인 "Thousand Voices of Trauma"를 제시합니다. 이 데이터셋은 18세에서 80세 사이의 다양한 인구통계적 프로필(남성 49.4%, 여성 44.4%, 비이성애자 6.2%)과 20가지 유형의 외상, 10가지 외상 관련 행동을 포함하며, 각각 500개의 고유한 사례를 6가지 대화 관점으로 탐구하여 치료의 진행 과정을 반영합니다. 결정적 및 확률적 생성 방법을 사용하여 생성되었으며, 외상 유형(폭력 목격 10.6%, 괴롭힘 10.2%) 및 증상(악몽 23.4%, 약물 남용 20.8%)의 현실적인 분포를 보여줍니다. 임상 전문가는 데이터셋의 치료적 충실도를 검증했으며, 모델 응답 평가를 위한 표준화된 지표를 갖춘 감정적 궤적 벤치마크도 개발되었습니다. 개인 정보 보호가 유지되는 이 데이터셋은 외상 중심 정신 건강 데이터의 중요한 공백을 해결하여 환자 대면 애플리케이션과 임상의 훈련 도구 발전에 귀중한 자료를 제공합니다.

시사점, 한계점

시사점:
PTSD 치료를 위한 연장 노출 요법 관련 대화 데이터 부족 문제 해결
다양한 인구통계적 특징과 외상 유형을 포함한 대규모 합성 데이터셋 제공
모델 응답 평가를 위한 표준화된 벤치마크 제공
환자 대면 애플리케이션 및 임상의 훈련 도구 개발에 기여
개인 정보 보호를 고려한 합성 데이터 활용
한계점:
합성 데이터의 한계로 인한 실제 치료 대화와의 완벽한 일치 어려움
임상 전문가 검증 과정에서 제기된 "greater authenticity"를 위한 개선 필요성
데이터셋의 일반화 가능성에 대한 추가 연구 필요
👍