SpikingBrain Technical Report: Spiking Brain-inspired Large Models
Created by
Haebom
저자
Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li
개요
본 논문은 기존 Transformer 기반 대규모 언어 모델의 효율성 병목 현상(계산량의 이차적 증가, 메모리의 선형적 증가)을 해결하기 위해 뇌에서 영감을 받은 SpikingBrain 모델을 제안한다. MetaX GPU 클러스터를 활용하여 선형 및 하이브리드 선형 어텐션 아키텍처, 효율적인 변환 기반 학습 파이프라인, 전용 스파이크 코딩 프레임워크, 맞춤형 학습 프레임워크 및 병렬 처리 전략 등 세 가지 측면에 집중하여 SpikingBrain-7B(선형 LLM) 및 SpikingBrain-76B(하이브리드 선형 MoE LLM) 두 모델을 개발하였다. 이 모델들은 비-NVIDIA 플랫폼에서 대규모 LLM 개발의 가능성을 보여주며, 오픈소스 Transformer 기준 모델과 비슷한 성능을 훨씬 적은 토큰(약 150B)으로 달성한다. 특히, 긴 시퀀스 학습 효율을 크게 향상시키고 (부분적으로) 일정한 메모리와 이벤트 기반 스파이킹 동작으로 추론을 수행한다. 예를 들어, SpikingBrain-7B는 4M 토큰 시퀀스에서 첫 토큰 생성 시간을 100배 이상 단축시킨다. 수백 개의 MetaX C550 GPU에서 수 주 동안 안정적인 학습을 유지하며, 7B 모델은 23.4%의 모델 FLOPs 활용률을 달성하고 69.15%의 스파스성을 통해 저전력 작동을 가능하게 한다.
시사점, 한계점
•
시사점:
◦
비-NVIDIA 플랫폼에서 대규모 LLM 개발의 가능성 제시
◦
뇌 영감 모델을 활용한 장문 처리 효율 개선
◦
기존 Transformer 기반 모델 대비 향상된 학습 및 추론 효율성 (특히 긴 시퀀스 처리)
◦
저전력 작동 가능성
◦
뛰어난 첫 토큰 생성 속도
•
한계점:
◦
MetaX GPU 클러스터에 특화된 시스템으로, 다른 플랫폼으로의 이식성 검증 필요
◦
제시된 모델의 성능 비교 대상이 오픈소스 Transformer 기준 모델로 제한적임. 다양한 최신 모델과의 비교 분석 필요
◦
SpikingBrain 모델의 일반화 성능 및 다양한 작업에 대한 적용성에 대한 추가 연구 필요
◦
모델의 크기(7B, 76B)가 다른 대규모 언어 모델과 비교했을 때 중간 규모에 그치므로, 더 큰 규모의 모델 개발 및 성능 평가 필요