본 논문은 임상시험 결과 예측 모델링 및 근거 기반 의사결정 개선을 위한 대규모 임상시험 결과(CTO) 벤치마크를 제시합니다. 약 12만 5천 건의 약물 및 생물학적 제제 시험을 포함하는 CTO는 대규모 언어 모델(LLM) 해석, 시험 단계 진행 추적, 뉴스 출처의 감정 분석, 시험 후원자의 주가 변동 및 기타 시험 관련 지표를 통합합니다. 2020년부터 2024년 사이에 수행된 임상시험 데이터셋을 수동으로 주석 처리하여 결과 라벨의 품질과 신뢰성을 높였으며, Phase 3 시험에서 94, 모든 단계에서 91의 F1 점수를 달성했습니다. 최근 임상시험에서의 성과 분석을 통해 고품질의 최신 시험 결과 라벨의 지속적인 필요성을 보여주고, CTO 지식 기반 및 주석이 달린 라벨을 공개적으로 배포합니다.