[Paper] ModerBERT
최근 올라오는 임베딩 모델 중 ModernBERT 구조 기반으로 학습된 모델들이 많다. 이에따라, ModernBERT 모델의 논문을 리뷰를 해보자 (11/10) Code Review는 아직 진행 중 TL;DR 기존 BERT보다 512 → 8192 input token으로 증가 RoPE (Rotary Positional Encoding) GeGLU, Normalization, Bias Term Disabling, Deep-Narrow, Alternating Attention, Flash Attention 2 / 3, Unpadding 등 최신 기법들을 사용해서 아키텍쳐를 구성함 Alternating Attention으로 로컬-글로벌 어텐션 2조 개의 토큰으로 훈련함 (근데 영어 데이터로만 했음) 1. 논문이 다루는 Task GLUE, IR, Code IR IR도 Single-Vector, Multi-Vector를 테스트하고, MLDR (long document)를 평가함 2. 기존 연구 한계 가장 중요한건, 컨텍스트 길이 제한 (512), 비효율적인 아키텍처 학습 효율만 개선 / 검색 성능에 초점.. 이런식으로 한 부분에만 초점을 뒀음 추가로, 데이터가 너무 구식이라 코드 과제에서 한계가 있다함 3. 제안 방법론: Main Idea Architectural Improvements Modern Transformer RoPE 위치 정보 처리랑 더 많은 컨텍스트를 처리하기 위함
- paper LeeP
