Supernova는 6억 5천만 개의 파라미터를 가진 디코더 전용 트랜스포머 모델입니다. 기존의 대규모 모델 성능에 필적하는 결과를 계산 효율성을 유지하면서 달성했습니다. 이는 Rotary Positional Embeddings (RoPE), Grouped Query Attention (GQA, 3:1 압축 비율), RMSNorm, SwiGLU 활성화 함수와 같은 설계 및 12만 단어의 바이트 수준 BPE 토크나이저의 혁신적인 사용 덕분입니다. Supernova는 10억 파라미터 모델의 90% 성능을 53% 적은 파라미터와 1,000억 토큰(경쟁 모델보다 10배 적음)으로 달성하여, 모델 크기보다는 아키텍처 효율성과 토크나이저의 질이 중요함을 보여줍니다.