Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pre-training Limited Memory Language Models with Internal and External Knowledge

Created by
  • Haebom

저자

Linxi Zhao, Sofian Zalouk, Christian K. Belardi, Justin Lovelace, Jin Peng Zhou, Ryan Thomas Noonan, Dongyoung Go, Kilian Q. Weinberger, Yoav Artzi, Jennifer J. Sun

개요

신경 언어 모델은 블랙박스이며, 언어 패턴과 사실적 지식이 수많은 불투명한 매개변수에 분산되어 있다. 이러한 얽힌 인코딩은 특정 사실을 안정적으로 검사, 확인 또는 업데이트하기 어렵게 만든다. 본 논문에서는 사전 훈련 중에 사실적 지식을 암기하는 대신 외부 데이터베이스로 외부에 저장하는 Limited Memory Language Models (LMLM)을 소개한다. 저자들은 사전 훈련 접근 방식을 통해 외부에서 검색된 사실 값을 훈련 손실로부터 전략적으로 마스크하여 모델이 모델 가중치에 의존하기보다는 목표 조회를 수행하도록 학습시킨다. 실험 결과 LMLM은 표준 벤치마크에서 훨씬 더 큰 LLM에 비해 경쟁력 있는 성능을 달성하면서 명시적이고 편집 가능하며 검증 가능한 지식 기반이라는 이점을 제공함을 보여주었다.

시사점, 한계점

시사점:
LMLM은 외부 데이터베이스를 활용하여 사실적 지식을 명시적으로 관리하고, 모델의 암기 의존도를 줄여 성능을 유지하면서도 지식의 수정, 검증, 관리를 용이하게 한다.
LMLM은 더 작은 규모의 모델로도 경쟁력 있는 성능을 달성할 수 있어, 계산 효율성을 높일 수 있다.
한계점:
본 논문에서는 한계점에 대한 직접적인 언급이 없음. (추론에 따라, 외부 데이터베이스의 품질과 접근성에 대한 의존성, 외부 데이터베이스와 모델 간의 상호 작용 및 통합에 대한 추가 연구의 필요성 등을 생각해 볼 수 있음.)
👍