# NanoKnow: How to Know What Your Language Model Knows

### 저자

Lingwei Gu, Nour Jedidi, Jimmy Lin

### 💡 개요

본 논문은 대규모 언어 모델(LLM)의 지식 출처를 파악하기 어렵다는 문제에 주목합니다. 이를 해결하기 위해 투명한 사전 학습 데이터를 가진 nanochat 모델을 활용하고, Natural Questions와 SQuAD 데이터셋을 nanochat의 사전 학습 코퍼스 포함 여부에 따라 분할한 벤치마크 데이터셋인 NanoKnow를 제안합니다. NanoKnow를 통해 LLM이 어떤 지식 소스에 의존하는지 명확히 분리하고, 모델의 정확도가 사전 학습 데이터의 답변 빈도, 외부 증거의 활용, 관련 없는 정보의 영향 등에 따라 어떻게 달라지는지 실험적으로 입증했습니다.

### 🔑 시사점 및 한계

- LLM의 지식 습득은 사전 학습 데이터의 답변 빈도에 강하게 영향을 받습니다.

- 외부 증거를 제공하면 사전 학습 데이터의 빈도 의존성을 완화할 수 있으나, 사전 학습된 지식과 외부 지식은 상호 보완적입니다.

- 관련 없는 정보는 모델의 정확도를 저하시키며, 이러한 부정적 영향은 정보의 위치와 개수에 따라 달라집니다.

- 본 연구는 nanochat이라는 특정 소규모 LLM 가족에 초점을 맞추고 있으므로, 다른 LLM 아키텍처나 더 큰 규모의 모델에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2602.20122)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
