본 논문은 기존의 중간 규모(GPT-2 수준) 네트워크와 합성 소규모 데이터셋에서 효과적인 구성 및 상황 내 학습 능력을 보여준 기억 모자이크(Memory Mosaics) 네트워크를 대규모 언어 모델(Llama-8B 수준)과 실제 데이터셋으로 확장한 연구 결과를 제시합니다. 100억 매개변수 규모로 확장된 기억 모자이크(Memory Mosaics v2)를 1조 토큰으로 학습시키고, 세 가지 평가 측면(훈련 지식 저장, 새로운 지식 저장, 상황 내 학습)에서 성능을 평가했습니다. 그 결과, Memory Mosaics v2는 트랜스포머와 훈련 지식 학습 성능이 유사했으며, 추론 시 새로운 작업 수행 능력(두 번째 및 세 번째 측면)에서는 트랜스포머를 상당히 능가하는 것으로 나타났습니다. 특히, 1조 토큰으로 학습된 Memory Mosaics v2는 8조 토큰으로 학습된 트랜스포머보다 더 나은 성능을 보였으며, 이러한 성능 향상은 단순히 트랜스포머의 훈련 데이터를 늘리는 것만으로는 달성하기 어렵다는 것을 시사합니다.