Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RWKV-7 "Goose" with Expressive Dynamic State Evolution

Created by
  • Haebom

저자

Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Xingjian Du, Haowen Hou, Jiaju Lin, Jiaxing Liu, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng

개요

RWKV-7 "Goose"는 토큰당 일정한 메모리 사용량과 추론 시간을 갖는 새로운 시퀀스 모델링 아키텍처입니다. 다른 최고 수준의 모델들보다 훨씬 적은 토큰으로 학습되었음에도 불구하고, 29억 개의 파라미터를 가진 이 언어 모델은 다국어 작업에서 새로운 3B 최고 성능을 달성했으며, 영어 언어 하위 작업에서 현재 3B 최고 성능과 동등한 성능을 보였습니다. RWKV-7은 벡터 값 게이팅 및 문맥 내 학습률을 사용한 새로운 일반화된 델타 규칙 공식과 완화된 값 대체 규칙을 도입합니다. RWKV-7은 상태 추적을 수행하고 모든 정규 언어를 인식할 수 있으며, 동시에 학습의 병렬 처리 기능을 유지합니다. 이는 표준 복잡도 추측하에 $\mathsf{TC}^0$로 제한되는 Transformer의 기능을 능가합니다. RWKV-7의 언어 모델링 기능을 보여주기 위해 3.1조 토큰의 확장된 오픈소스 다국어 말뭉치를 제시하고, 이 데이터셋에서 0.19억에서 2.9억 개의 파라미터를 가진 네 개의 RWKV-7 모델을 학습시켰습니다. 모델과 데이터셋 구성 요소 목록은 https://huggingface.co/RWKV에서, 학습 및 추론 코드는 https://github.com/RWKV/RWKV-LM에서 Apache 2.0 라이선스하에 공개합니다.

시사점, 한계점

시사점:
토큰당 일정한 메모리 사용량과 추론 시간으로 효율적인 시퀀스 모델링 가능성 제시.
적은 토큰으로 학습에도 불구하고 최첨단 성능 달성.
상태 추적 및 정규 언어 인식 가능.
Transformer보다 우수한 성능.
오픈소스로 모델과 데이터셋, 코드 공개.
한계점:
본 논문에서는 명시적으로 한계점을 언급하지 않음. 추가적인 연구를 통해 규모 확장성, 다양한 작업에 대한 일반화 성능, 잠재적인 편향 등에 대한 추가 분석이 필요할 수 있음.
👍