Supernova는 6억 5천만 파라미터의 디코더 전용 트랜스포머 모델로, 신중한 아키텍처 설계와 토큰화 혁신을 통해 대규모 모델의 성능을 유지하면서 계산 효율성을 높일 수 있음을 보여줍니다. Rotary Positional Embeddings (RoPE), 3:1 압축 비율의 Grouped Query Attention (GQA), 계산 효율성을 위한 RMSNorm, 그리고 SwiGLU 활성화 함수를 결합합니다. 128,000 어휘의 바이트 단위 BPE 토크나이저는 최첨단 압축 성능을 달성합니다. Supernova는 10억 파라미터 모델의 90% 성능을 달성하면서 파라미터 수는 35% 적고, 훈련 토큰 수는 1000억 개로 경쟁 모델보다 훨씬 적습니다 (10배 감소). 이 연구는 아키텍처 효율성과 토큰화 품질이 파라미터 수 감소를 상쇄할 수 있음을 보여주며 기존의 확장 패러다임에 도전합니다.