본 논문은 대규모 언어 모델(LLM)을 전자 설계 자동화(EDA) 분야에 적용하는 데 있어 기존 코드 생성 벤치마크의 한계를 지적하고, 이를 해결하기 위한 통합 평가 프레임워크 TuRTLe을 제안합니다. TuRTLe은 여러 기존 벤치마크를 통합하여 구문 정확성, 기능 정확성, 합성 가능성, PPA 최적화, 정확한 라인 완성 등 다양한 측면에서 LLM의 성능을 종합적으로 평가합니다. 다양한 오픈 LLM을 벤치마킹한 결과, DeepSeek R1과 같은 추론 기반 모델이 여러 평가 기준에서 우수한 성능을 보였지만 계산 오버헤드와 추론 지연 시간이 증가하는 단점이 있음을 밝혔습니다. 또한, 기본 모델은 모듈 완성 작업에, 지시어 미세 조정 모델은 명세서-RTL 작업에 더 적합함을 보여줍니다.