Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li

개요

본 논문은 장기 기억을 효율적인 초장기 컨텍스트 모델링 문제로 설정하고, 이를 해결하기 위해 희소성, 임의 접근 유연성, 길이 일반화의 세 가지 핵심 속성을 갖춘 Hierarchical Sparse Attention (HSA)를 제안합니다. HSA를 Transformer에 통합하여 80억 개의 파라미터를 가진 MoE 모델인 HSA-UltraLong을 구축하고, 8조 개 이상의 토큰으로 학습시켰습니다. HSA-UltraLong은 in-domain 및 out-of-domain 컨텍스트 길이의 다양한 작업에서 평가되어 초장기 컨텍스트 처리 능력을 입증했습니다.

시사점, 한계점

Hierarchical Sparse Attention (HSA)을 활용하여 초장기 컨텍스트 모델링 문제를 해결하는 새로운 접근 방식을 제시함.
HSA-UltraLong 모델은 16M 컨텍스트까지의 in-context 검색 작업에서 90% 이상의 정확도를 달성하여 초장기 컨텍스트 처리 능력을 입증함.
in-domain 길이에서는 full-attention 기반 모델과 유사한 성능을 보임.
초장기 컨텍스트 모델링 연구의 기반을 마련하고, 향후 연구를 위한 실험적 통찰력과 해결해야 할 문제점을 제시함.
구체적인 한계점은 논문에 명시되지 않음.
👍