Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pre-training Large Memory Language Models with Internal and External Knowledge

Created by
  • Haebom

저자

Linxi Zhao, Sofian Zalouk, Christian K. Belardi, Justin Lovelace, Jin Peng Zhou, Kilian Q. Weinberger, Yoav Artzi, Jennifer J. Sun

개요

본 논문은 신경망 언어 모델의 블랙박스 문제를 해결하기 위해, 외부 데이터베이스와 내부 가중치 모두에 사실적 지식을 저장하는 대용량 메모리 언어 모델(LMLM)을 제안합니다. LMLM은 훈련 과정에서 외부에서 가져온 사실적 정보를 의도적으로 마스킹하여 모델이 단순 암기 대신 목표 지향적 조회를 수행하도록 학습시킵니다. 실험 결과, LMLM은 기존의 대규모 지식 기반 언어 모델과 비교하여 경쟁력 있는 성능을 보이며, 동시에 명시적이고, 편집 가능하며, 검증 가능한 지식 베이스의 장점을 제공합니다. 이는 언어 모델이 사실적 지식과 상호 작용하고 관리하는 방식에 대한 근본적인 변화를 의미합니다.

시사점, 한계점

시사점:
대규모 언어 모델의 블랙박스 문제 해결에 대한 새로운 접근 방식 제시
명시적, 편집 가능, 검증 가능한 지식 베이스를 갖춘 언어 모델 구축 가능성 증명
기존 대규모 모델에 비해 경쟁력 있는 성능을 더 작은 모델 크기로 달성
언어 모델의 지식 관리 방식에 대한 패러다임 전환 가능성 제시
한계점:
제안된 LMLM의 확장성 및 일반화 성능에 대한 추가적인 연구 필요
외부 데이터베이스의 관리 및 유지보수에 대한 고려 필요
외부 데이터베이스의 정확성 및 신뢰성에 대한 의존성
외부 데이터베이스 조회 과정의 효율성에 대한 개선 필요
👍