본 논문은 대규모 언어 모델(LLM)을 이용하여 게임 관련 코드를 생성하는 연구를 다룬다. Python과 Java 두 가지 언어를 중심으로, 진화적 언덕 오르기 알고리즘을 활용하여 LLM이 초기 프로그램의 변이와 시드를 제어하도록 설계되었다. Python에서는 Atari 게임 축소판 5종, Baba is You 10레벨, Asteroids 기반 환경, 미로 생성 과제 등 다양한 게임 관련 작업을, Java에서는 TAG tabletop 게임 프레임워크의 12개 게임을 대상으로 실험을 진행했다. Python 12개, Java 8개의 LLM을 29개 과제에 걸쳐 평가한 결과, LLM의 성능은 모델 크기보다 과제에 더 크게 의존하는 것으로 나타났다. 큰 모델이 실행 가능한 프로그램을 더 많이 생성하지만, 항상 더 높은 품질의 솔루션을 제공하는 것은 아니며 비용이 훨씬 더 많이 든다. 특정 과제에서는 특정 모델이 더 나은 성능을 보이지만, 어떤 모델이 압도적으로 우수한 것은 아니다. 따라서 여러 모델을 시도하고 그 중 최고의 결과를 사용하는 것이 단일 모델만 사용하는 것보다 더 신뢰할 수 있다는 결론을 제시한다.