PMOA-TTS: Introducing the PubMed Open Access Textual Times Series Corpus
Created by
Haebom
저자
Shahriar Noroozizadeh, Sayantan Kumar, George H. Chen, Jeremy C. Weiss
개요
PMOA-TTS는 124,699개의 PubMed Open Access (PMOA) 증례 보고서를 LLM 기반 파이프라인을 통해 구조화된 (사건, 시간) 타임라인으로 변환한 최초의 공개 데이터셋입니다. Llama 3.3과 DeepSeek R1을 사용하여 단일 환자 증례 보고서를 식별하고, 프롬프트 기반 추출을 통해 560만 개 이상의 타임스탬프가 찍힌 임상 사건을 추출했습니다. 임상의가 큐레이션한 참조 집합을 사용하여 이벤트 일치율(코사인 유사도 임계값 0.1에서 80% 일치), 시간 일치도(c-index > 0.90), 타임스탬프 정렬을 위한 AULTC(Area Under the Log-Time CDF) 세 가지 지표로 타임라인의 품질을 평가했습니다. 추출된 타임라인의 임베딩은 생존 예측 작업에서 최대 0.82 ± 0.01의 시간 의존적 일치 지수를 달성하여 시간적으로 구조화된 서술의 예측 값을 보여줍니다. PMOA-TTS는 생의학 NLP에서 타임라인 추출, 시간 추론 및 종단 연구 모델링을 위한 확장 가능한 기반을 제공합니다. 데이터셋은 https://huggingface.co/datasets/snoroozi/pmoa-tts 에서 이용 가능합니다.