본 논문은 자연어 설명을 기반으로 구조화된 다이어그램을 생성하는 LLM의 능력을 평가하기 위한 벤치마크, MermaidSeqBench를 소개합니다. 특히, 소프트웨어 엔지니어링에서 널리 사용되는 텍스트 기반 구문인 Mermaid를 사용하여 시퀀스 다이어그램을 생성하는 LLM의 능력을 평가합니다. MermaidSeqBench는 수동으로 제작 및 검증된 소규모 샘플 세트를 시작으로, 인간 주석, 문맥 내 LLM 프롬프팅 및 규칙 기반 변형 생성을 결합한 하이브리드 방법론을 통해 확장되었습니다. 이 벤치마크는 LLM을 심사 모델로 사용하여 구문 정확성, 활성화 처리, 오류 처리 및 실용적 사용성을 포함한 세분화된 지표를 통해 Mermaid 시퀀스 다이어그램 생성을 평가합니다. 다양한 최첨단 LLM에 대한 초기 평가를 수행하고 여러 LLM 심사 모델을 활용하여 벤치마크의 효과와 유연성을 입증합니다.