본 논문은 대규모 생의학 문헌, 임상 기록 및 의학 온톨로지(PubMed 초록, MIMIC IV 임상 데이터, 의학 코드 및 해당 텍스트 설명 포함)를 사용하여 사전 훈련된 Transformer 기반 인코더인 Clinical ModernBERT를 소개합니다. 최첨단 자연어 텍스트 인코더인 ModernBERT를 기반으로 회전 위치 임베딩(RoPE), Flash Attention, 최대 8,192 토큰의 확장된 컨텍스트 길이와 같은 아키텍처 업그레이드를 통합하여 생의학 및 임상 영역에 특화된 모델을 개발했습니다. Clinical ModernBERT는 긴 컨텍스트 작업에 맞춤화된 의미적으로 풍부한 표현을 생성하는 데 탁월하며, 사전 훈련된 가중치 분석 및 포괄적인 임상 NLP 벤치마크에 대한 경험적 평가를 통해 이를 검증합니다.