본 논문은 기존 프론트엔드 코드 생성 평가 벤치마크의 한계점(단순한 과제, 부실한 테스트 케이스, 종단 간 검증 부재)을 지적하고, 이를 해결하기 위해 인간과 LLM이 공동 개발한 새로운 벤치마크인 FrontendBench를 제시합니다. FrontendBench는 코드 기능 기반의 과제 분류, 상호작용적 테스트 시나리오 도입을 통해 더욱 포괄적이고 실용적인 평가를 가능하게 합니다. 148개의 prompt-test case 쌍으로 구성되며, 자동 평가 프레임워크를 통해 90.54%의 높은 신뢰도를 보이는 평가를 수행합니다. 여러 최첨단 LLM을 FrontendBench로 평가한 결과, 실제 프론트엔드 과제 처리 능력에 상당한 성능 차이가 있음을 확인했습니다. FrontendBench는 신뢰할 수 있고 확장 가능한 벤치마크로, 일관된 다중 모드 평가를 지원하며 프론트엔드 코드 생성 연구의 기반을 제공합니다.