본 논문은 대규모 언어 모델(LLM)의 코딩 분야 적용이 코드 어시스턴트에서 자율 코딩 에이전트, 자연어를 통한 완전한 프로젝트 생성까지 빠르게 진화하고 있음을 지적합니다. 초기 LLM 코드 벤치마크는 주로 코드 생성 정확도에 초점을 맞추었지만, 현재는 포화 상태에 도달했습니다. 이러한 벤치마크 포화는 LLM의 발전을 위한 지침 역할을 약화시킵니다. 따라서 기존 소프트웨어 엔지니어링 벤치마크의 포화를 해결하기 위해, 웹 개발의 기본 요소인 웹 표준과 웹 프레임워크를 다루는 50개의 프로젝트(각 프로젝트는 순차적 의존성을 가진 20개의 작업으로 구성)로 이루어진 새로운 벤치마크인 Web-Bench를 제안합니다. 각 프로젝트는 510년 경력의 엔지니어가 48시간 걸쳐 완성하는 복잡한 수준이며, 최첨단 모델인 Claude 3.7 Sonnet조차 25.1%의 Pass@1 점수를 기록하여 기존 벤치마크보다 낮은 성능을 보입니다. 이는 LLM이 웹 표준 및 프레임워크에 맞춰 최적화되어야 함을 시사합니다.