BaxBench는 백엔드 애플리케이션 생성을 위한 새로운 평가 벤치마크입니다. 392개의 과제로 구성되며, 백엔드에 초점을 맞춘 이유는 실제로 중요하고, 대부분의 현대 웹 및 클라우드 소프트웨어의 핵심 구성 요소를 구축하며, 올바르게 구현하기 어렵고, 보안에 중요하기 때문입니다. BaxBench는 생성된 애플리케이션의 기능을 포괄적인 테스트 사례로 검증하고, 엔드투엔드 악용을 실행하여 보안 노출을 평가합니다. 실험 결과, 현재 LLM의 기능과 보안 모두에 중요한 한계가 있음을 보여줍니다. OpenAI의 o1 모델조차도 코드 정확도에서 62%에 불과했으며, 생성된 정확한 프로그램의 약 절반에서 보안 악용이 성공적으로 실행되었습니다. 인기 없는 백엔드 프레임워크에서는 모델이 정확하고 안전한 애플리케이션을 생성하는 데 더 어려움을 겪었습니다. BaxBench의 발전은 LLM을 사용한 자율적이고 안전한 소프트웨어 개발을 향한 중요한 단계를 의미합니다.