Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

Created by
  • Haebom

저자

Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah

개요

본 논문은 대규모 선형 어텐션 디코더에서 소프트맥스 어텐션 트랜스포머를 빠르게 변환하는 프로토콜인 RADLADS(Rapid Attention Distillation to Linear Attention Decoders at Scale)를 제시합니다. 두 가지 새로운 RWKV 변형 아키텍처와 인기 있는 Qwen2.5 오픈 소스 모델(7B, 32B, 72B 크기)에서 변환된 모델을 포함합니다. 변환 과정에는 3억 5천만에서 7억 토큰만 필요하며, 이는 원래 교사 모델을 훈련하는 데 사용된 토큰 수의 0.005% 미만입니다. 72B 선형 어텐션 모델로의 변환 비용은 현재 가격으로 2,000달러 미만이며, 추론 성능은 원래 트랜스포머와 거의 동일합니다. 이 모델들은 해당 크기의 선형 어텐션 모델에 대한 표준 벤치마크 집합에서 최첨단의 다운스트림 성능을 달성합니다. 모든 모델은 Apache 2.0 라이선스에 따라 HuggingFace에 공개되며, 72B 모델은 Qwen 라이선스 계약도 적용됩니다.

시사점, 한계점

시사점:
소프트맥스 어텐션 트랜스포머를 선형 어텐션 모델로 효율적으로 변환하는 방법을 제시합니다.
기존 모델보다 훨씬 적은 비용으로 고품질의 선형 어텐션 모델을 생성할 수 있습니다.
다양한 크기의 선형 어텐션 모델에 대한 최첨단 성능을 달성합니다.
변환된 모델을 오픈소스로 공개하여 연구 및 활용을 촉진합니다.
한계점:
72B 모델은 Qwen 라이선스 계약의 제약을 받습니다.
변환 과정에 사용되는 토큰 수는 여전히 상당합니다.
다양한 종류의 트랜스포머 모델에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍