본 논문은 Java 코드를 위한 대규모 언어 모델(LLM) 기반 유닛 테스트의 자동 평가 프레임워크인 AgoneTest를 소개합니다. AgoneTest는 새로운 테스트 생성 알고리즘을 제안하는 것이 아니라, 연구자 및 개발자가 다양한 LLM과 프롬프트 전략을 표준화된 엔드 투 엔드 평가 파이프라인을 통해 비교할 수 있도록 지원합니다. Classes2Test 데이터셋과 돌연변이 점수, 테스트 스멜과 같은 고급 평가 지표를 통합한 프레임워크를 제공합니다. 실험 결과는 컴파일 가능한 테스트의 경우, LLM 생성 테스트가 커버리지 및 결함 감지 측면에서 사람이 작성한 테스트와 동등하거나 능가할 수 있음을 보여줍니다. 또한 향상된 프롬프트 전략이 테스트 품질에 기여함을 입증했습니다. AgoneTest는 LLM의 소프트웨어 테스트 잠재력을 명확히 하고, 모델 설계, 프롬프트 엔지니어링 및 테스트 관행의 미래 개선에 대한 통찰력을 제공합니다.