본 논문은 최근 발전된 아키텍처, 사전 학습 및 미세 조정 기술을 활용하여 기존 BERT, RoBERTa와 같은 인코더 모델의 한계를 극복하는 새로운 인코더 모델 NeoBERT를 제시합니다. NeoBERT는 2억 5천만 개의 매개변수로 구성되어 있지만, 최첨단 아키텍처, 최신 데이터 및 최적화된 사전 학습 방법론을 통합하여 MTEB 벤치마크에서 BERT large, RoBERTa large, NomicBERT, ModernBERT 등 기존 최고 성능 모델들을 능가하는 결과를 달성했습니다. 4096 토큰의 확장된 컨텍스트 길이와 최적의 깊이-폭 비율을 가지며, 기존 모델과의 호환성을 위해 플러그 앤 플레이 방식으로 설계되었습니다. 본 논문은 NeoBERT의 성능 향상에 기여한 각 요소의 영향을 GLUE 벤치마크를 통해 엄격하게 평가하고, MTEB에 대한 통일된 미세 조정 및 평가 프레임워크를 제시합니다. 모든 코드, 데이터, 체크포인트 및 훈련 스크립트를 공개하여 연구 및 실제 적용을 가속화합니다.