long Context + Deep Layer로 인해서 post-Norm 방식으로는 학습이 어려워지기 때문에, pre-norm 방식으로 안정적으로 학습시킴
◦
또한, Warm-up 의존도도 낮고, lr schedule 설계가 수월해짐
▪
즉 결국은 long context에서의 학습을 위해서 설계되었다는 것
•
Bias Term 제거
◦
바이어스 항을 대부분 다 제거함 (마지막 Decoder layer를 제외하고)
◦
파라미터가 더 유용한 학습에 집중되도록 설계
▪
Deep&Narrow 구조여서 동일 파라미터에서 더 큰 모델을 표현하기 위함
▪
Bias도 하나의 파라미터이기 때문에..
◦
구현 자체는 nn.Linear(.., bias=False) 이런식으로 구현할 수 있음
•
Activation
◦
GeGLU
▪
모델 표현력을 더 높이기 위함
Efficiency Improvement
•
Alternating Attention
◦
매 3개 layer마다 global attention으로 처리 (전체 토큰이 어텐션을 주고 받기)
◦
각각 RoPE의 Theta값을 다르게 설계함
▪
이 방식은 전체 context를 잃지 않으면서 연산복잡도를 줄인다고함
◦
global → local → global → local …식으로 어텐션을 적용함
▪
나머지에는 sliding window로 local attention 처리 (일부 토큰만 어텐션 주고 받기)
•
Unpadding
◦
보통 우리가 입력 시퀀스를 만들 때 padding 토큰을 생성하는데, 이걸 하지 않음
▪
필요시 출력에서 다시 패딩을 복원하는 방식
◦
long context에서 padding의 비율이 늘어나면 좀 메모리가 낭비되는게 있다고 함
▪
Flash Attention 2/3이 가변 길이 처리를 지원 → 고효율로 어텐션 계산
•
Model Design
◦
Deep & Narrow
▪
layer는 진짜 많은데, 각 layer의 dimension이 작음
▪
표현 계층이 깊고 추상화 능력이 높음
•
최근 언어모델 트렌드라고함
Trainig / Data
•
최근 Mixture Data들을 사용
◦
영어 데이터로 구성된 2조 개의 토큰으로 학습
◦
웹문서, 과학문헌, 코드데이터
•
토크나이저
◦
OLMo 토크나이저 기반의 현대적인 BPE 토크나이저
▪
코드 관련 작업 효율성과 성능을 개선하기 위함
▪
CLS, SEP → BERT와 동일한 스페셜 토큰 사용
•
시퀀스패킹
◦
Greedy 패킹 알고리즘 → 효율 99% 달성, 배치크기 균일화
•
마스킹 비율
◦
30%의 마스킹 비율 사용 → 기존 15%는 효율적이지 못함
•
최적화 / LR 스케쥴
◦
StableAdamW
▪
파라미터별 학습률을 조정
▪
안정적인 학습을 이끔
◦
WSD
▪
warming up 이 있고, 대부분 구간에서 LR이 고정됨 → Decay도 적음
✨Contribution
•
RoPE를 사용해서 8192 token까지 context 길이를 확장함
◦
RoPE theta 크기 / 업샘플링 / LR Scheduling 다ㅏㅏㅏ 해야 성능이 올라감
•
downstream task 전반에 가장 균형 잡힌 모델을 만들 수 있게 됨
4. 실험 및 결과
Evaluation
•
NLU / Information Retreival / Long Context Retrieval / Code Retrieval로 평가를 진행함
•
다 이전 BERT계열 모델로 평가를 수행하였음
•
확실히 IR 부분에서는 다른 모델들보다 Base/Large 모두 좋은 성능을 보였음
•
Large도 거의 마찬가지 (다른 모델들에 성능이 좀 떨어지는 것이 있지만 거의 차이가 없음)
효율성 평가
•
파라미터가 거의 비슷함에도 불구하고, batch size를 크게 가져감
◦
variable length에 대해서는 다른 모델들 보다 좋음
◦
고정된 길이에 대해서는 조금 떨어짐
BEIR 전체 테스크에 대한 nDCG score
결과
•
Limit
◦
Language : 영어데이터로만 학습해서 multilingual하지 않음
◦
long context가 항상 최적은 아님, 짧은 문맥에서는 기존 모델보다 느릴 수도 있다고 함
◦
주로 웹데이터 위주로 학습 → 내재된 편향이 있을 수 있음
◦
MLM 목적 함수로 학습 → [MASK] 토큰을 대체할 단어를 예측하는 과정에서 일부 텍스트를 generate하는 능력이 있음
▪
그럼 이상하게 생성할 수 있음
▪
유해 콘텐츠의 위험성 존재
◦
해당 논문은 데이터 규모, 아키텍처 개선 위주였음
▪
scaling axis, model param 측면의 확장은 다루지 않았음
▪
즉 모델크기를 키워서 한 실험은 없다는 뜻
개인 평
•
우선 기존 512 token 위주에서 8192 token으로 되었다는 것으로 Long Context에 대해 처리할 수 있음을 보였다는 것
◦
이 때문에 현재 많은 embedding model들이 modernBERT 기반, XLM-RoBERTa 기반으로 되어가고 있음
•
또한 "code"에 대한 임베딩의 시작?이라고 볼 수 있는듯
Pa
Subscribe to 'Paperl'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'Paperl'!