본 논문은 합성 시계열 평가 척도를 포괄적이고 해석 가능하게 자동 비교할 수 있는 최초의 벤치마크 프레임워크인 Synthetic Time series Evaluation Benchmark (STEB)를 제안합니다. 데이터 증강이나 개인정보 보호 규정으로 인해 증가하는 합성 시계열의 필요성을 충족시키기 위해 다양한 생성 모델, 프레임워크 및 평가 척도가 개발되었지만, 이들을 대규모로 객관적으로 비교하는 것은 여전히 어려움을 겪고 있습니다. STEB는 10개의 다양한 데이터셋, 난수 주입, 13개의 구성 가능한 데이터 변환을 사용하여 척도의 신뢰성 및 점수 일관성에 대한 지표를 계산합니다. 또한 실행 시간, 테스트 오류를 추적하며 순차 및 병렬 동작 모드를 지원합니다. 실험을 통해 기존 문헌의 41개 척도에 대한 순위를 결정하고, 상위 시계열 임베딩의 선택이 최종 점수에 큰 영향을 미친다는 것을 확인했습니다.