본 논문은 기존 소프트웨어와 달리 비결정성을 갖는 대규모 언어 모델(LLM)과 다중 에이전트 LLM(MALLM)의 검증을 위한 새로운 테스트 케이스 설계 분류 체계를 제시합니다. 단순 출력 비교나 통계적 정확도를 넘어 LLM의 정확성을 검증하기 위한 접근 방식이 필요하며, 연구 문헌, 연구진의 경험, 그리고 최신 오픈소스 도구를 바탕으로 LLM 테스트 케이스 설계의 핵심 변수들을 확인하고, LLM이 소프트웨어 시스템에 필수적인 부분이 됨에 따라 연구, 산업, 오픈소스 커뮤니티가 해결해야 할 과제들을 강조합니다. 입력과 출력의 모호성을 해결하고 모범 사례를 확립하면서 LLM 테스트 케이스 설계의 네 가지 측면을 정의하고, 목표, 테스트 대상 시스템, 입력의 변동성을 구분하며 원자적 오라클과 집계적 오라클이라는 두 가지 주요 오라클 유형을 제시합니다. 현재 도구들이 이러한 변동성을 충분히 고려하지 못하고 있음을 보여주고, LLM 테스트의 신뢰성과 재현성을 향상시키기 위해 학계와 실무자 간의 긴밀한 협력이 필요함을 강조합니다.