Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Code to Play: Benchmarking Program Search for Games Using Large Language Models

Created by
  • Haebom

저자

Manuel Eberhardinger, James Goodman, Alexander Dockhorn, Diego Perez-Liebana, Raluca D. Gaina, Duygu \c{C}akmak, Setareh Maghsudi, Simon Lucas

개요

본 논문은 대규모 언어 모델(LLM)을 이용하여 게임 관련 코드를 생성하는 연구를 다룬다. Python과 Java 두 가지 언어를 중심으로, 진화적 언덕 오르기 알고리즘을 활용하여 LLM이 초기 프로그램의 변이와 시드를 제어하도록 설계되었다. Python에서는 Atari 게임 축소판 5종, Baba is You 10레벨, Asteroids 기반 환경, 미로 생성 과제 등 다양한 게임 관련 작업을, Java에서는 TAG tabletop 게임 프레임워크의 12개 게임을 대상으로 실험을 진행했다. Python 12개, Java 8개의 LLM을 29개 과제에 걸쳐 평가한 결과, LLM의 성능은 모델 크기보다 과제에 더 크게 의존하는 것으로 나타났다. 큰 모델이 실행 가능한 프로그램을 더 많이 생성하지만, 항상 더 높은 품질의 솔루션을 제공하는 것은 아니며 비용이 훨씬 더 많이 든다. 특정 과제에서는 특정 모델이 더 나은 성능을 보이지만, 어떤 모델이 압도적으로 우수한 것은 아니다. 따라서 여러 모델을 시도하고 그 중 최고의 결과를 사용하는 것이 단일 모델만 사용하는 것보다 더 신뢰할 수 있다는 결론을 제시한다.

시사점, 한계점

시사점:
LLM을 이용한 게임 코드 생성의 가능성을 보여줌.
모델 크기보다 과제 특성이 성능에 더 큰 영향을 미침을 확인.
다양한 LLM을 활용하는 전략이 단일 모델 사용보다 효과적임을 제시.
게임 개발 분야에 LLM 적용 가능성을 확장.
한계점:
특정 과제에 최적화된 모델이 존재하나, 보편적으로 우수한 모델은 없음.
대규모 모델의 높은 비용 문제.
평가된 게임 종류 및 난이도의 제한.
LLM 성능 향상을 위한 추가 연구 필요.
👍