언어 모델 출력이 사전 학습 코퍼스와 어떻게 관련되는지 이해하는 것은 모델 동작을 연구하는 데 중요하다. 본 논문은 기존의 훈련 데이터 귀속 방법과 달리, 어떤 출력이 사전 훈련 예제에 귀속될 수 없는지에 초점을 맞춘 '무귀속성'을 제안한다. 이를 통해 의미론적 참신성을 측정하며, GIST 임베딩 기반의 검색 파이프라인과 ColBERTv2를 사용하여 가장 가까운 코퍼스 항목을 찾고, 인간이 생성한 텍스트 참조와 비교하여 모델의 출력이 참신한지 판단한다. SmolLM과 SmolLM2 모델에 대한 실험을 통해 모델이 이전에 보고된 것보다 훨씬 긴 범위의 사전 훈련 데이터를 사용하고, 일부 도메인이 참신성을 체계적으로 촉진하거나 억제하며, 지침 튜닝이 스타일뿐만 아니라 참신성도 증가시킨다는 것을 발견했다.