Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pretraining with hierarchical memories: separating long-tail and common knowledge

Created by
  • Haebom

저자

Hadi Pouransari, David Grangier, C Thomas, Michael Kirchhof, Oncel Tuzel

개요

본 논문은 현대 언어 모델의 성능 향상이 파라미터 스케일링에 의존하는 문제점을 해결하고자, 메모리 증강 아키텍처와 사전 학습 전략을 제안한다. 작은 언어 모델이 세계 지식을 인코딩한 대규모 계층적 파라메트릭 메모리 뱅크에 접근하는 방식을 사용한다. 사전 학습 및 추론 시, 컨텍스트에 따라 작은 메모리 블록을 가져와 모델에 추가한다. 이를 통해, 긴 꼬리 형태의 세계 지식은 메모리 파라미터에 저장하고, 작은 언어 모델은 일반적인 지식과 일반적인 추론 능력을 담당하도록 학습한다. 160M 파라미터 모델에 18M 파라미터 메모리를 추가하여 4.6B 메모리 뱅크에서 가져오는 방식으로, 2배 이상의 파라미터를 가진 일반 모델과 유사한 성능을 달성함을 실험적으로 보였다. 또한, 트랜스포머 모델에서 최적의 파라메트릭 메모리 유형과 크기를 연구하고, 최대 21B 파라미터까지 확장했다. 제안된 계층적 피드포워드 메모리는 사전 학습 또는 사후적으로 추가될 때 트랜스포머 아키텍처에서 견고하게 작동함을 확인했다.

시사점, 한계점

시사점:
소형 언어 모델과 외부 메모리 뱅크의 결합을 통해 모델 파라미터 수를 줄이면서도 성능을 유지할 수 있다.
엣지 디바이스와 같이 메모리 및 연산 자원이 제한적인 환경에서 언어 모델을 효율적으로 사용할 수 있는 가능성을 제시한다.
계층적 피드포워드 메모리를 활용하여 다양한 트랜스포머 아키텍처에 적용 가능하다.
한계점:
메모리 뱅크 구축 및 관리에 대한 추가적인 연구가 필요하다.
메모리 액세스 방식에 따른 성능 변화 및 최적화에 대한 연구가 필요하다.
제안된 아키텍처의 실제 응용 분야에서의 효과에 대한 추가 검증이 필요하다.
👍