본 논문은 최근 발전된 아키텍처, 사전 학습 및 미세 조정 기법을 활용하여 기존의 BERT, RoBERTa와 같은 인코더 모델의 성능 한계를 극복하는 새로운 인코더 모델 NeoBERT를 제안합니다. NeoBERT는 최적의 깊이-폭 비율, 4,096 토큰의 확장된 컨텍스트 길이를 가지며, 2억 5천만 개의 매개변수만으로도 MTEB 벤치마크에서 기존 최고 성능을 뛰어넘는 결과를 달성합니다. 기존 모델과의 호환성을 위해 플러그 앤 플레이 방식을 채택하였으며, GLUE 및 MTEB에 대한 엄격한 평가와 통일된 미세 조정 및 평가 프레임워크를 제공합니다. 코드, 데이터, 체크포인트, 학습 스크립트를 공개하여 연구 및 실제 적용을 가속화합니다.