본 논문은 특허 분야의 NLP 과제에서 Transformer 기반 언어 모델의 성능 저하 문제를 해결하기 위해, 특허 데이터에 특화된 3개의 마스크 언어 모델을 사전 훈련하는 연구를 제시한다. ModernBERT 아키텍처를 기반으로 하고, FlashAttention, rotary embedding, GLU feed-forward layer 등 아키텍처 최적화를 적용했으며, 6천만 개 이상의 특허 기록으로 구성된 데이터셋을 사용했다. 4가지 특허 분류 태스크에 대한 실험을 통해 일반적인 ModernBERT 모델과 PatentBERT 모델을 능가하는 성능을 보였고, 모델 크기 및 토크나이저를 추가적으로 커스터마이징하여 성능 향상을 이뤘다. ModernBERT 변종은 PatentBERT보다 3배 이상 빠른 추론 속도를 유지하여 시간 민감한 응용 분야에 적합하다는 것을 강조한다.