Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

Created by
  • Haebom

저자

Hongda Zhu, Yiwen Zhang, Bing Zhao, Jingzhe Ding, Siyao Liu, Tong Liu, Dandan Wang, Yanan Liu, Zhaojian Li

개요

본 논문은 기존 프론트엔드 코드 생성 평가 벤치마크의 한계점(단순한 과제, 부실한 테스트 케이스, 종단 간 검증 부재)을 지적하고, 이를 해결하기 위해 인간과 LLM이 공동 개발한 새로운 벤치마크인 FrontendBench를 제시합니다. FrontendBench는 코드 기능 기반의 과제 분류, 상호작용적 테스트 시나리오 도입을 통해 더욱 포괄적이고 실용적인 평가를 가능하게 합니다. 148개의 prompt-test case 쌍으로 구성되며, 자동 평가 프레임워크를 통해 90.54%의 높은 신뢰도를 보이는 평가를 수행합니다. 여러 최첨단 LLM을 FrontendBench로 평가한 결과, 실제 프론트엔드 과제 처리 능력에 상당한 성능 차이가 있음을 확인했습니다. FrontendBench는 신뢰할 수 있고 확장 가능한 벤치마크로, 일관된 다중 모드 평가를 지원하며 프론트엔드 코드 생성 연구의 기반을 제공합니다.

시사점, 한계점

시사점:
기존 벤치마크의 한계를 극복한, 실제 프론트엔드 개발 과제를 반영하는 새로운 벤치마크 FrontendBench 제시.
자동 평가 프레임워크를 통해 효율적이고 신뢰도 높은 평가 가능.
다양한 최첨단 LLM의 프론트엔드 코드 생성 능력 비교 및 성능 차이 분석.
향후 프론트엔드 코드 생성 연구를 위한 견고한 기반 제공.
한계점:
데이터 및 코드 공개 시점 미정.
벤치마크의 범위 및 과제의 다양성에 대한 추가적인 검토 필요.
자동 평가 프레임워크의 한계 및 개선 여지 존재 가능성.
👍