TrialPanorama는 15개 글로벌 소스에서 집계된 1,657,476건의 임상 시험 기록으로 구성된 대규모 구조화된 데이터베이스입니다. 임상 시험 설계 및 실행의 주요 측면(시험 설정, 중재, 상태, 바이오마커, 결과 등)을 포착하고, DrugBank 및 MedDRA와 같은 표준 생물 의학 온톨로지와 연결합니다. 임상 시험 계획, 설계, 요약 등 다양한 임상 시험 작업에 사용할 수 있는 통합적이고 확장 가능한 자원으로 기능합니다. 본 논문에서는 TrialPanorama 데이터베이스에서 직접 도출한 벤치마크 작업 세트를 제시합니다. 이 벤치마크는 체계적 검토(연구 검색, 연구 선별, 증거 요약) 관련 3가지 작업과 임상 시험 설계(군 설계, 적격 기준, 종점 선택, 표본 크기 추정, 시험 완료 평가) 관련 5가지 작업 등 총 8가지 작업으로 구성됩니다. 5개의 최첨단 대규모 언어 모델(LLM)을 사용한 실험 결과, 범용 LLM은 어느 정도 제로샷 기능을 보이지만 고위험 임상 시험 워크플로우에는 성능이 부족한 것으로 나타났습니다. TrialPanorama 데이터베이스와 벤치마크를 공개하여 임상 시험 AI에 대한 추가 연구를 촉진합니다.