본 논문은 대규모 언어 모델이 지식의 오래됨과 해석 불가능성 문제를 겪는다는 점에 주목하여, 토큰 시퀀스로 인간이 읽을 수 있는 지식을 저장하는 백만 규모의 외부 메모리 뱅크를 특징으로 하는 새로운 아키텍처인 ExplicitLM을 제안합니다. 이 모델은 직접적인 검사 및 수정을 가능하게 합니다. 저자들은 product key 분해를 통한 효율적인 coarse-grained 필터링과 end-to-end 학습을 위한 fine-grained Gumbel-Softmax 매칭을 사용하여 미분 가능한 2단계 검색 메커니즘을 설계했습니다. 또한 dual-system 인지 이론을 바탕으로 지식을 고정된 명시적 사실(20%)과 학습 가능한 암묵적 패턴(80%)으로 분할하고, 안정성을 위해 지수 이동 평균 업데이트를 통해 유지합니다.
시사점, 한계점
•
지식 집약적 작업에서 표준 Transformer에 비해 최대 43.67% 성능 향상을 달성했으며, 저데이터 환경(10k 샘플)에서 3.62배의 성능 향상을 보였습니다.
•
메모리 검색과 성능 간의 강한 상관관계를 보였으며, 올바른 예측이 49% 더 높은 적중률을 보였습니다.
•
고정된 검색 방식을 사용하는 RAG 시스템과 달리, 이 모델은 해석 가능하고 업데이트 가능한 모델이 경쟁력 있는 성능을 유지하면서 전례 없는 지식 투명성을 제공할 수 있음을 보여줍니다.