CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation
Created by
Haebom
저자
Ziyue Liu, Ruijie Zhang, Zhengyang Wang, Zi Yang, Paul Hovland, Bogdan Nicolae, Franck Cappello, Zheng Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 막대한 모델 크기를 야기하는 완전 크기 MLP와 어텐션의 투영 레이어를 효율적인 오토인코더로 대체하는 CoLA 및 CoLA-M을 제안합니다. 사전 훈련된 LLM의 활성화가 저랭크 특성을 갖는다는 경험적 관찰을 바탕으로, CoLA는 훈련 과정 전체에서 저랭크 활성화를 자연스럽게 강제하는 오토인코더를 사용하여 활성화 중복을 제거하고 모델 용량 및 훈련 효율을 크게 향상시킵니다. 6천만에서 70억 매개변수를 가진 LLaMA 모델에 대한 실험 결과, CoLA는 계산 비용을 2배 절감하고 훈련 처리량을 1.86배 향상시키면서 전랭크 수준의 성능을 유지합니다. CoLA-M은 처리량을 희생하지 않고 메모리 비용을 더욱 절감하여 매개변수, 계산 및 메모리 효율성이 모두 우수한 사전 훈련 방식을 제공합니다. 또한 생성된 LLM은 2배 더 작아 리소스 제약이 있는 플랫폼에서 더 빠른 추론과 낮은 메모리 비용을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
LLM의 계산 비용과 메모리 비용을 효과적으로 절감하는 새로운 아키텍처 CoLA와 CoLA-M 제시.