RWKV-7 "Goose" with Expressive Dynamic State Evolution
Created by
Haebom
Category
Empty
저자
Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
개요
RWKV-7 "Goose"는 새로운 시퀀스 모델링 아키텍처로, 30억 파라미터 규모의 다국어 작업에서 최첨단 성능을 달성했습니다. 이는 다른 최고 수준의 30억 파라미터 모델들보다 훨씬 적은 토큰으로 학습되었음에도 불구하고, 영어 언어 성능과 동등한 수준입니다. 또한 토큰당 일정한 메모리 사용량과 추론 시간을 필요로 합니다. 벡터 값 게이팅과 문맥 내 학습률을 갖는 새로운 일반화된 델타 규칙과 완화된 값 대체 규칙을 도입했습니다. RWKV-7은 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 학습의 병렬 처리 기능도 유지합니다. 이는 표준 복잡도 추측하에 $\mathsf{TC}^0$로 제한되는 Transformer의 기능을 능가합니다. 3.1조 토큰 규모의 다국어 말뭉치를 공개하고, 0.19억에서 2.9억 파라미터 범위의 네 개의 RWKV-7 모델을 학습했습니다. 모델과 데이터셋은 Apache 2.0 라이선스 하에 공개되었습니다.