Este artículo aborda la automatización del diseño de hardware mediante modelos de lenguaje a gran escala (LLM), especialmente la generación de código a nivel de transferencia de registro (RTL). Revisamos investigaciones previas sobre la generación de código RTL basada en LLM y presentamos los elementos necesarios para construir un conjunto de datos que permita un aprendizaje y ajuste preciso de modelos eficaces. Un conjunto de datos Verilog robusto se construye mediante un proceso automatizado de tres pasos: construcción y gestión de bases de datos mediante PostgreSQL, recopilación de datos de sitios de alojamiento de código como OpenCores y GitHub, y preprocesamiento, que incluye la verificación de la sintaxis del código, la ejecución de la síntesis lógica y la extracción de metadatos de los módulos relacionados. Implementamos una infraestructura de base de datos escalable y eficiente para el análisis y describimos en detalle el proceso de preprocesamiento para garantizar datos de alta calidad antes de la inserción en la base de datos. Como resultado, presentamos el mayor conjunto de datos Verilog de alta calidad conocido, compuesto por 20 392 muestras Verilog y 751 MB de datos de código Verilog, y exploramos las posibles aplicaciones para la evaluación de conjuntos de datos, los desafíos relacionados y la investigación y el desarrollo futuros en el campo de la generación de hardware basada en LLM.