본 논문은 Java 코드를 위한 대규모 언어 모델(LLM) 기반 유닛 테스트의 자동 평가 프레임워크인 AgoneTest를 소개합니다. AgoneTest는 새로운 테스트 생성 알고리즘을 제안하는 것이 아니라, 연구자와 개발자가 현실적인 조건에서 다양한 LLM과 프롬프트 전략을 비교할 수 있도록 지원합니다. Classes2Test 데이터세트와 돌연변이 점수, 테스트 스멜과 같은 고급 평가 지표를 통합한 프레임워크를 제공합니다. 실험 결과는 컴파일 가능한 테스트의 경우 LLM이 생성한 테스트가 커버리지와 결함 감지 측면에서 인간이 작성한 테스트와 동등하거나 능가할 수 있음을 보여줍니다. 또한 향상된 프롬프트 전략이 테스트 품질에 기여한다는 것을 입증합니다.