Sign In

Towards a Method for Synthetic Generation of PWA Transcripts

Created by
  • Haebom
Category
Empty

저자

Jason M. Pittman, Anton Phillips Jr., Yesenia Medina-Santos, Brielle C. Stark

개요

본 연구는 언어치료사가 아홥시아 환자의 언어 샘플을 분석할 때 사용하는 Correct Information Units (CIUs) 기반의 수기 코딩에 소요되는 시간적 제약을 해결하고자, 데이터 부족 문제를 극복하기 위해 아홥시아 환자의 언어 데이터를 합성하는 두 가지 방법을 개발하고 평가했다. AphasiaBank 데이터셋의 Cat Rescue 그림 묘사 과제를 기반으로, 절차적 프로그래밍과 Mistral 7b Instruct 및 Llama 3.1 8b Instruct LLM을 활용하여 네 가지 중증도 (Mild, Moderate, Severe, Very Severe) 수준의 합성 데이터를 생성했다. 연구 결과, Mistral 7b Instruct가 아홥시아 언어의 핵심적인 특징을 가장 잘 포착했으며, 향후 더 큰 데이터셋 구축, 모델 미세 조정, 언어치료사의 실제성 평가를 통해 합성 데이터의 유용성을 높일 필요가 있음을 제시했다.

시사점, 한계점

시사점:
아홥시아 연구에서 데이터 부족 문제를 해결하기 위한 합성 데이터 생성 방법론 제시
LLM을 활용하여 아홥시아 언어 특성을 모방하는 합성 데이터 생성 가능성 입증
Mistral 7b Instruct가 아홥시아 언어의 특징을 가장 잘 나타내는 것으로 확인
한계점:
제한적인 데이터셋(AphasiaBank) 사용
모델의 성능을 향상시키기 위한 추가적인 미세 조정 필요
합성 데이터의 실제성 및 유용성에 대한 언어치료사의 주관적인 평가 필요
👍