Disentangling generalization and memorization in large language models using chess

작성자

Haebom

카테고리

Empty

저자

Leonard S. Pleiss, Maximilian Schiffer, Robert K. von Weizsaecker

💡 개요

본 연구는 대규모 언어 모델(LLM)의 성능이 단순 암기인지 혹은 진정한 추론 능력인지를 명확히 하고자 체스를 통제된 테스트베드로 활용합니다. 체스의 구조와 엔진 평가를 이용하여, 모델의 학습 데이터에 대한 명시적인 정보 없이도 관련 사전 정보의 밀도에 따라 분류된 포지션의 분류 체계를 구축합니다. 이를 통해 LLM의 일반화와 암기 능력을 분리하여 평가하고, 특히 사전 정보가 부족한 경우 모델의 성능 한계를 탐구합니다.

🔑 시사점 및 한계

•

LLM의 성능은 관련 사전 정보의 밀도가 낮아질수록 일관되게 저하되며, 사전 정보가 거의 없는 경우 기본 모델의 성능은 무작위 수준으로 회귀합니다.

•

최신 모델들은 성능 향상을 보이지만, 사전 정보가 희소한 태스크에서는 개선 속도가 현저히 느려지며, 추론 증강 기법 또한 사전 정보 부족 시 상대적인 이점이 감소합니다.

•

본 연구는 LLM이 사전 정보가 없을 때 견고한 성능을 달성하기 위해 규모 확대 이상의 메커니즘이 필요함을 시사하며, 체계적인 일반화 능력의 한계를 드러냅니다.

•

본 연구는 체스라는 특정 영역을 테스트베드로 사용하였으므로, 일반적인 LLM의 다양한 능력에 대한 포괄적인 일반화에는 한계가 있을 수 있습니다.

PDF 보기

Made with Slashpage