Pre-training Large Memory Language Models with Internal and External Knowledge
Created by
Haebom
저자
Linxi Zhao, Sofian Zalouk, Christian K. Belardi, Justin Lovelace, Jin Peng Zhou, Kilian Q. Weinberger, Yoav Artzi, Jennifer J. Sun
개요
본 논문은 기존의 언어 모델들이 지식을 불투명한 매개변수에 분산 저장하여 검증 및 수정이 어려운 문제점을 해결하기 위해, 외부 데이터베이스와 내부 가중치 모두에 사실적 지식을 저장하는 대용량 메모리 언어 모델(LMLM)을 제안합니다. LMLM은 외부에서 검색한 사실적 정보를 학습 손실에서 전략적으로 제외하여 모델이 단순 암기가 아닌 목표 지식 검색을 수행하도록 학습합니다. 실험 결과, LMLM은 기존의 대규모 지식 집약적 언어 모델들과 비교하여 경쟁력 있는 성능을 보이며, 명시적이고 편집 가능하며 검증 가능한 지식 기반의 장점을 제공합니다. 이는 언어 모델이 사실적 지식과 상호 작용하고 관리하는 방식에 대한 근본적인 변화를 제시합니다.
시사점, 한계점
•
시사점:
◦
외부 지식 기반과의 통합을 통해 언어 모델의 지식 관리 및 검증의 투명성을 향상시킬 수 있습니다.
◦
기존 대규모 언어 모델보다 작은 크기로 경쟁력 있는 성능을 달성할 수 있습니다.
◦
명시적이고 편집 가능한 지식 기반을 통해 언어 모델의 지식을 쉽게 업데이트하고 관리할 수 있습니다.
◦
사실적 지식 관리에 대한 새로운 패러다임을 제시합니다.
•
한계점:
◦
제안된 LMLM의 성능이 모든 벤치마크에서 일관되게 우수한지는 추가적인 연구가 필요합니다.