본 논문은 대규모 언어 모델(LLM)을 전자 설계 자동화(EDA) 분야에 적용하는 데 있어 기존 코드 생성 벤치마크의 한계를 지적하고, 이를 해결하기 위해 통합된 평가 프레임워크인 TuRTLe을 제안합니다. TuRTLe은 문법적 정확성, 기능적 정확성, 합성 가능성, PPA(Power, Performance, Area) 최적화, 정확한 라인 완성 등 다양한 평가 기준을 통합하여 LLM의 RTL 코드 생성 성능을 종합적으로 평가합니다. 다양한 오픈 LLM을 벤치마킹한 결과, DeepSeek R1과 같은 추론 기반 모델이 여러 평가 기준에서 우수한 성능을 보였지만, 계산 비용과 추론 지연 시간이 증가하는 단점이 있음을 밝혔습니다. 또한, 기본 모델은 모듈 완성 작업에, 지시어 미세 조정 모델은 명세-RTL 작업에 더 적합함을 보여줍니다.