WebApp1K는 테스트 주도 개발(TDD) 과제에서 대규모 언어 모델(LLM)을 평가하기 위한 새로운 벤치마크입니다. 기존의 자연어 프롬프트에 의존하는 방식과 달리, 테스트 사례를 프롬프트와 코드 생성 검증 모두에 사용하여 LLM이 테스트 사례에서 기능을 직접 해석하고 구현하는 능력을 강조합니다. 20개의 애플리케이션 도메인에 걸쳐 1000개의 다양한 과제로 구성되어 있으며, 문맥 길이 및 다중 기능 복잡성 제약 조건 하에서 간결하고 기능적인 코드를 생성하는 LLM의 능력을 평가합니다. 19개의 최첨단 모델에 대한 포괄적인 평가를 통해 지시 사항 손실과 같은 성능 병목 현상을 밝히고 여러 근본 원인에 걸친 상세한 오류 분석을 제공합니다. TDD 특정 벤치마크의 실용적 가치를 강조하고 엄격하고 애플리케이션 중심의 코딩 시나리오에서 LLM 기능을 발전시키기 위한 기반을 마련합니다. 결과적으로, 지시 사항 따르기와 문맥 내 학습이 TDD 성공에 중요한 역량임을 강조하며, 일반적인 코딩 능숙도나 사전 훈련 지식보다 중요함을 보여줍니다.