본 논문은 대규모 언어 모델(LLM)을 이용한 자동 알고리즘 발견(AAD), 특히 최적화 휴리스틱 분야의 연구가 급증함에 따라, LLM 기반 AAD 방법과 생성된 알고리즘의 성능과 한계를 엄격하게 평가하기 위한 강력하고 표준화된 벤치마킹 방식의 필요성을 강조합니다. 이를 위해 연구진은 연속적인 블랙박스 최적화 환경에서 LLM 기반 AAD 방법을 벤치마킹하도록 특별히 설계된 모듈식이고 확장 가능한 프레임워크인 BLADE(Benchmark suite for LLM-driven Automated Design and Evolution)를 소개합니다. BLADE는 벤치마크 문제 모음(MA-BBOB 및 SBOX-COST 등 포함), 인스턴스 생성기, 일반화, 특수화 및 정보 활용과 같은 기능 중심 테스트를 위한 텍스트 설명을 통합합니다. 유연한 실험 설정 옵션, 재현성 및 공정한 비교를 위한 표준화된 로깅, AAD 프로세스 분석 방법(예: 코드 진화 그래프 및 다양한 시각화 방법), IOHanalyser 및 IOHexplainer와 같은 기존 도구와의 통합을 통한 인간이 설계한 기준선과의 비교 기능을 제공합니다. BLADE는 LLM 기반 AAD 접근 방식을 체계적으로 평가하기 위한 '바로 사용 가능한' 솔루션을 제공하며, 돌연변이 프롬프트 전략과 함수 특수화를 탐색하는 두 가지 고유한 사용 사례를 통해 프레임워크를 시연합니다.