대규모 언어 모델(LLM)의 훈련 데이터 암기 현상에 대한 연구를 수행했다. 특히, 데이터의 암기 난이도를 특징짓는 방법을 탐구하여, OLMo 모델을 대상으로 실험을 진행하여 엔트로피-암기 법칙(Entropy-Memorization Law)을 제시했다. 이 법칙에 따르면 데이터 엔트로피와 암기 점수 간의 선형 상관관계가 존재한다. 또한, 무작위 문자열(gibberish) 암기 실험을 통해, 무작위 문자열이 훈련 데이터에 비해 낮은 엔트로피를 가짐을 확인했다. 이러한 결과를 바탕으로, 훈련 및 테스트 데이터를 구분하는 간단하고 효과적인 데이터셋 추론(DI) 방식을 개발했다.