Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Matériel libre et équitable : une voie vers la génération Verilog sans violation du droit d'auteur grâce aux LLM

Created by
  • Haebom

Auteur

Sam Bush, Matthew DeLorenzo, Phat Tieu, Jeyavijayan Rajendran

Contour

Cet article évalue le risque de violation du droit d'auteur lié à la conception matérielle à l'aide de modèles de langage à grande échelle (LLM), notamment la génération de code Verilog, et présente une méthode pour le minimiser. Pour pallier la limitation de taille et l'absence de vérification de licence des jeux de données Verilog open source existants, nous proposons FreeSet, un jeu de données Verilog open source contenant plus de 220 000 fichiers avec un risque de violation du droit d'auteur minimisé, et un cadre de gestion automatisé des jeux de données. Sur cette base, nous développons FreeV, un modèle Llama optimisé pour Verilog, en construisant un cadre de réglage fin LLM grâce à un pré-entraînement continu. Les résultats expérimentaux montrent que FreeV présente un risque de violation du droit d'auteur significativement plus faible (3 %) et améliore le taux de réussite à VerilogEval de plus de 10 % par rapport aux modèles existants.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour aborder les problèmes de droits d’auteur dans les ensembles de données open source.
Développement de FreeV, un modèle de génération de code Verilog qui améliore les performances tout en minimisant les risques de violation du droit d'auteur.
Contribuer à résoudre les problèmes éthiques dans le domaine de la conception matérielle basée sur le LLM.
Suggérant la possibilité d'activer la recherche liée à Verilog via l'ensemble de données FreeSet.
Limitations:
Difficulté à vérifier pleinement le droit d'auteur de l'ensemble de données FreeSet (un taux de violation du droit d'auteur de 3 % existe toujours)
L'évaluation des performances du modèle FreeV est limitée à un benchmark spécifique (VerilogEval).
Il est nécessaire de vérifier les performances générales de FreeV pour diverses tâches de conception matérielle.
À Mesure que la taille des ensembles de données augmente à l’avenir, il devient nécessaire d’améliorer l’efficacité de la gestion et du traitement des données.
👍