기존 코드 벤치마크는 알려진 버그를 재현하거나 설명된 문제를 수정하는 패치를 생성하는 AI 에이전트의 능력을 평가합니다. 본 논문은 문서 기반의 의미론적 불변성을 추출하고 이를 위반하는 입력 생성을 통해 버그를 탐색하는 속성 기반 테스트(Property-Based Testing, PBT) 능력을 분리하여 평가하는 PBT-Bench를 제안합니다. PBT-Bench는 40개 실제 Python 라이브러리에 걸쳐 100개의 PBT 문제로 구성되며, 에이전트는 문서 이해와 이를 바탕으로 한 입력 생성 전략 수립 능력을 평가받습니다.