본 논문은 자연어의 정보이론적 복잡도(토큰당 비트)가 프랙탈 구조를 가지며, 이러한 특징이 다양한 규모에서 자기 유사성과 장기 의존성(LRD)을 나타낸다는 점을 바탕으로, 대규모 언어 모델(LLM)이 이러한 프랙탈 특성을 재현하는지, 그리고 온도 설정이나 프롬프트 방법과 같은 조건 하에서 어떻게 실패하는지를 조사합니다. 자연어에서 관찰되는 프랙탈 매개변수는 좁은 범위 내에 있는 반면, LLM 출력의 매개변수는 광범위하게 변화하는 것을 발견하였으며, 이는 프랙탈 매개변수가 LLM이 생성한 텍스트의 상당 부분을 감지하는 데 유용할 수 있음을 시사합니다. Gemini 1.0 Pro, Mistral-7B, Gemma-2B 등 다양한 아키텍처에서 이러한 결과가 견고하게 유지됨을 확인하였습니다. 또한, 다양한 LLM(사전 훈련 및 지시 튜닝)으로 생성된 24만 개 이상의 기사와 해당 인간이 생성한 텍스트를 포함하는 데이터 세트를 공개합니다. 본 연구는 LLM에서 프랙탈 특성, 프롬프트 및 통계적 모방 간의 복잡한 상호 작용을 강조하여 합성 텍스트 생성, 평가 및 탐지에 대한 통찰력을 제공합니다.