# WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games

### 저자

Wenyu Zhang, Guoliang You,  Tianlun, Haotian Zhao, Tianshu Zhu, Haoran Wang, Xiaoxuan Tang, Mingyang Dai, Jingnan Gu, Daxiang Dong, Jianmin Wu

### 💡 개요

본 논문은 코딩 에이전트가 요구사항 명세로부터 브라우저에서 실행 가능한 게임 애플리케이션을 얼마나 잘 생성하는지 평가하기 위한 새로운 벤치마크인 WebGameBench를 제안합니다. WebGameBench는 구조화된 웹게임 명세로부터 생성된 애플리케이션을 실제 브라우저 환경에서 테스트하여 EXCELLENT, USABLE, UNUSABLE의 세 가지 등급으로 평가합니다. 이를 통해 기존 코딩 에이전트들이 최소한의 플레이 가능한 애플리케이션을 넘어 완벽한 요구사항 만족까지는 아직 갈 길이 멀다는 것을 보여줍니다.

### 🔑 시사점 및 한계

- 코딩 에이전트의 평가를 소스코드 수준에서 벗어나 실제 애플리케이션의 동작과 사용성을 직접적으로 검증하는 방향으로 전환하는 데 기여합니다.

- 단순해 보이는 게임조차도 입력 처리, 규칙 실행, 상태 전환 등 다양한 복합적인 기능을 요구하므로, 코딩 에이전트의 종합적인 능력을 평가하는 데 효과적인 테스트베드를 제공합니다.

- 현재 코딩 에이전트들이 'usable' 수준의 애플리케이션 생성에는 어느 정도 성공하지만, 'excellent' 수준의 완벽한 만족도에는 도달하지 못하는 간극을 명확히 드러냅니다.

- 인간의 플레이 경험 리뷰와 비교했을 때, 런타임 평가의 신뢰성을 입증하려 했으나, 다양한 게임 유형 및 복잡성에 대한 포괄적인 검증은 향후 과제로 남습니다.

[PDF 보기](https://arxiv.org/pdf/2605.17637)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
