Apriel-H1: Towards Efficient Enterprise Reasoning Models
Created by
Haebom
Category
Empty
저자
Oleksiy Ostapenko, Luke Kumar, Raymond Li, Denis Kocetkov, Joel Lamy-Poirier, Shruthan Radhakrishna, Soham Parikh, Shambhavi Mishra, Sebastien Paquet, Srinivas Sunkara, Valerie Becaert, Sathwik Tejaswi Madhusudhan, Torsten Scholak
개요
본 논문은 트랜스포머 아키텍처의 시간 및 메모리 복잡성 문제를 해결하기 위해, 트랜스포머의 어텐션 메커니즘과 State Space Models (SSMs)를 결합한 하이브리드 LLM인 Apriel-H1 모델을 소개한다. Apriel-H1은 15B 모델 크기로, 사전 훈련된 추론 트랜스포머 모델인 Apriel-Nemotron-15B-Thinker로부터 점진적으로 덜 중요한 어텐션 레이어를 Mamba 블록으로 대체하는 방식으로 얻어진다. 다양한 SSM-to-MHA 비율의 Apriel-H1-15B-Thinker 변형을 공개하고, Mamba 레이어의 증가에 따른 추론 성능 저하를 분석한다. 또한, 추론 트레이스 데이터셋으로 추가 미세 조정된 30/50 하이브리드 변형을 통해 vLLM 환경에서 2배 이상의 추론 처리량 증가를 달성하면서, 추론 성능 저하를 최소화함을 보여준다.
시사점, 한계점
•
시사점:
◦
하이브리드 SSM-트랜스포머 아키텍처는 사전 훈련된 트랜스포머 모델 대비 상당한 효율성 향상을 제공한다.
◦
Apriel-H1 모델은 추론 품질을 크게 저하시키지 않으면서 추론 처리량을 2배 이상 향상시켰다.
◦
Mamba 블록으로 어텐션 레이어를 대체하는 비율에 따른 성능 변화를 분석하여, 효율적인 하이브리드 모델 설계를 위한 가이드라인을 제시한다.
•
한계점:
◦
15B 모델 크기에서만 연구가 진행되었으며, 다른 모델 크기에 대한 일반화 가능성은 추가 연구가 필요하다.
◦
Mamba 블록으로 어텐션 레이어를 대체하는 최적의 비율을 찾는 데 한계가 있을 수 있다.