본 논문은 대규모 언어 모델(LLM)을 활용하는 시스템의 견고성을 평가하기 위한 프레임워크를 제시한다. 특히, COBOL 코드를 입력으로 사용하는 시스템의 견고성을 중점적으로 다루며, COBOL과 Java 간의 번역을 예시로 든다. COBOL은 중요한 업무에 사용되지만, 독점적인 레거시 애플리케이션으로 인해 LLM 훈련에 사용하기 어렵다는 점을 고려하여, COBOL 코드의 변형 방법을 개발하고 벤치마크 데이터셋을 확장하여 시스템의 견고성을 평가한다. 개별 및 집계 메트릭을 사용하여 LLM 기반 시스템의 출력 변화를 측정하고, 시각화 대시보드를 통해 시스템의 출력 디버깅, 입력 변동에 대한 근본 원인 분석을 돕는다.