Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Memory Mosaics at scale

Created by
  • Haebom

저자

Jianyu Zhang, Leon Bottou

개요

본 연구는 연관 기억 네트워크인 Memory Mosaics를 대규모 언어 모델 크기(llama-8B 규모)와 실제 데이터셋에 적용하여 확장성을 검증한다. 이를 위해 Memory Mosaics v2를 개발하고, 100억 개의 매개변수와 1조 개의 토큰으로 학습시켰다. 훈련된 Memory Mosaics v2는 훈련 지식 저장, 새로운 지식 저장, 그리고 문맥 내 학습 능력을 평가받았으며, 기존 트랜스포머 모델보다 우수한 성능을 보였다. 특히 새로운 작업 수행 능력에서 두드러진 개선을 보였고, 이는 트랜스포머의 학습 데이터 증가만으로는 달성하기 어려운 수준이었다.

시사점, 한계점

시사점:
Memory Mosaics는 대규모 언어 모델에서도 뛰어난 성능을 유지하며, 특히 새로운 작업에 대한 일반화 능력이 우수하다.
Memory Mosaics v2는 트랜스포머 모델보다 적은 양의 훈련 데이터로도 더 나은 성능을 달성할 수 있다.
한계점:
논문에서 구체적인 한계점은 제시되지 않음. (제시된 정보만으로 판단)
👍