[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VerilogDB: el conjunto de datos más grande y de mayor calidad con un marco de preprocesamiento para la generación de RTL basada en LLM

Created by
  • Haebom

Autor

Paul E. Calzada, Zahin Ibnat, Tanvir Rahman, Kamal Kandula, Danyu Lu, Sujan Kumar Saha, Farimah Farahmandi, Mark Tehranipoor

Describir

Este artículo aborda la automatización del diseño de hardware mediante modelos de lenguaje a gran escala (LLM), especialmente la generación de código a nivel de transferencia de registro (RTL). Revisamos investigaciones previas sobre la generación de código RTL basada en LLM y presentamos los elementos necesarios para construir un conjunto de datos que permita un aprendizaje y ajuste preciso de modelos eficaces. Un conjunto de datos Verilog robusto se construye mediante un proceso automatizado de tres pasos: construcción y gestión de bases de datos mediante PostgreSQL, recopilación de datos de sitios de alojamiento de código como OpenCores y GitHub, y preprocesamiento, que incluye la verificación de la sintaxis del código, la ejecución de la síntesis lógica y la extracción de metadatos de los módulos relacionados. Implementamos una infraestructura de base de datos escalable y eficiente para el análisis y describimos en detalle el proceso de preprocesamiento para garantizar datos de alta calidad antes de la inserción en la base de datos. Como resultado, presentamos el mayor conjunto de datos Verilog de alta calidad conocido, compuesto por 20 392 muestras Verilog y 751 MB de datos de código Verilog, y exploramos las posibles aplicaciones para la evaluación de conjuntos de datos, los desafíos relacionados y la investigación y el desarrollo futuros en el campo de la generación de hardware basada en LLM.

Takeaways, Limitations

Takeaways:
Proporciona un conjunto de datos Verilog a gran escala y de alta calidad para la automatización del diseño de hardware basado en LLM.
Presentamos un método para construir canales de preprocesamiento y gestión de bases de datos eficientes.
Sugiere futuras direcciones de investigación en el campo de la generación de hardware basada en LLM.
Limitations:
Puede ser necesaria una evaluación adicional de la calidad y diversidad del conjunto de datos.
Se necesita más investigación para determinar si el conjunto de datos presentado es aplicable a todos los tipos de diseños de hardware.
Es posible que el tamaño del conjunto de datos no sea suficiente para futuros desarrollos en LLM.
👍