Sign In

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data

Created by
  • Haebom
Category
Empty

저자

Xinyi Wang, Antonis Antoniades, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang

개요

본 논문은 대규모 언어 모델(LLM)이 새로운 과제에 일반화하는 능력이 있는지, 아니면 주로 방대한 사전 훈련 데이터를 암기하는지에 대한 논쟁을 해결하기 위해, 확장된 암기 개념인 분포적 암기를 제시합니다. LLM 출력 확률과 사전 훈련 데이터 빈도 간의 상관관계를 측정하는 이 개념을 효과적으로 포착하기 위해, 사전 훈련 말뭉치에서 의미적으로 관련된 n-gram 쌍의 동시 발생을 계산하는 새로운 작업-문법 언어 모델을 제안합니다. Pile 데이터셋으로 훈련된 Pythia 모델을 사용하여 기계 번역, 사실적 질문 응답, 세계 지식 이해, 수학 추론 등 네 가지 과제를 평가합니다. 그 결과, 암기의 정도는 과제마다 다르며, 사실적 질문 응답에서 가장 강하게 나타나는 것을 확인했습니다. 또한, 모든 과제에서 LLM 크기가 증가함에 따라 모델 성능이 향상되지만, 사실적 질문 응답에서만 암기가 증가하고, 기계 번역 및 추론 과제는 더 많은 새로운 출력을 생성하여 일반화가 더 잘 나타납니다. 이 연구는 암기가 단순하고 지식 집약적인 과제에서 더 큰 역할을 하고, 일반화는 더 어렵고 추론 기반 과제의 핵심임을 보여주며, 대규모 사전 훈련 말뭉치를 더 자세히 분석하는 확장 가능한 방법을 제공합니다.

시사점, 한계점

시사점:
LLM의 성능에 대한 암기와 일반화의 상대적 기여도를 정량적으로 측정하는 새로운 방법(분포적 암기)을 제시.
과제의 유형에 따라 암기와 일반화의 중요성이 다름을 실험적으로 증명 (사실적 질문 응답은 암기, 기계 번역 및 추론은 일반화).
대규모 사전 훈련 말뭉치 분석을 위한 확장 가능한 방법 제공.
한계점:
제안된 방법의 일반성 및 다양한 LLM 아키텍처 및 데이터셋에 대한 적용 가능성에 대한 추가 연구 필요.
task-gram 언어 모델의 설계 및 성능에 대한 자세한 분석이 부족.
평가에 사용된 과제의 범위가 제한적일 수 있음. 더 다양하고 복잡한 과제를 포함한 추가 연구 필요.
👍