본 논문은 인공지능(AI) 시스템, 특히 대규모 언어 모델(LLM)이 과학적 아이디어 생성과 같은 창의적인 작업에 사용되는 것을 다룬다. 기존 개념적 프레임워크가 다루지 못했던 훈련 데이터로부터의 일반화 형태를 분석하고, 개방적인 특성을 가진 조합적 창의성(CC)을 평가하기 위한 이론적 프레임워크와 알고리즘적 작업을 제안한다. 모델의 참신성과 유용성을 평가 기준으로 삼아, LLM의 창의성 스케일링 행동에 대한 첫 번째 통찰력을 얻고, 창의적 능력에 최적의 모델 깊이와 너비가 존재함을 발견했다. 또한, 아이디어 생성 능력과 실행 가능성 사이의 격차는 근본적인 참신성-유용성 트레이드오프에 기인하며, 이 트레이드오프는 스케일링에도 불구하고 지속되어 LLM의 장기적인 창의적 잠재력에 의문을 제기한다.