Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RWKV-7 "Goose" with Expressive Dynamic State Evolution

Created by
  • Haebom
Category
Empty

저자

Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng

개요

RWKV-7 "Goose"는 새로운 시퀀스 모델링 아키텍처로, 30억 파라미터 규모의 다국어 작업에서 최첨단 성능을 달성했습니다. 이는 다른 최고 수준의 30억 파라미터 모델들보다 훨씬 적은 토큰으로 학습되었음에도 불구하고, 영어 언어 성능과 동등한 수준입니다. 또한 토큰당 일정한 메모리 사용량과 추론 시간을 필요로 합니다. 벡터 값 게이팅과 문맥 내 학습률을 갖는 새로운 일반화된 델타 규칙과 완화된 값 대체 규칙을 도입했습니다. RWKV-7은 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 학습의 병렬 처리 기능도 유지합니다. 이는 표준 복잡도 추측하에 $\mathsf{TC}^0$로 제한되는 Transformer의 기능을 능가합니다. 3.1조 토큰 규모의 다국어 말뭉치를 공개하고, 0.19억에서 2.9억 파라미터 범위의 네 개의 RWKV-7 모델을 학습했습니다. 모델과 데이터셋은 Apache 2.0 라이선스 하에 공개되었습니다.

시사점, 한계점

시사점:
30억 파라미터 규모의 다국어 작업에서 최첨단 성능 달성.
적은 토큰으로 학습에도 불구하고 우수한 성능.
일정한 메모리 사용량과 추론 시간.
상태 추적 및 모든 정규 언어 인식 가능.
Transformer보다 우수한 성능.
모델과 데이터셋의 공개를 통한 연구의 투명성 증대.
한계점:
본 논문에서는 명시적인 한계점이 제시되지 않았습니다.
👍