[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VerilogDB: The Largest, Highest-Quality Dataset with a Preprocessing Framework for LLM-based RTL Generation

Created by
  • Haebom

作者

Paul E. Calzada, Zahin Ibnat, Tanvir Rahman, Kamal Kandula, Danyu Lu, Sujan Kumar Saha, Farimah Farahmandi, Mark Tehranipoor

概要

本論文は、大規模言語モデル(LLM)を使用したハードウェア設計の自動化、特にレジスタ転送レベル(RTL)コードの生成に関する研究を扱います。 LLMベースのRTLコード生成のための既存の研究を検討し、効果的なモデル学習と微調整のためのデータセット構成に必要な要素を提示します。 PostgreSQLを使用したデータベースの構築と管理、OpenCoresやGitHubなどのコードホスティングサイトでのデータ収集、そしてコード構文検証、論理合成実行、関連モジュールメタデータ抽出などの前処理過程を経て、強力なVerilogデータセットを自動化された3段階プロセスを通じて構築する。分析をサポートするスケーラブルで効率的なDBインフラストラクチャを実装し、DB挿入前の高品質データを確保するための前処理パイプラインについて詳しく説明します。その結果、20,392個のVerilogサンプルと751MBのVerilogコードデータで構成され、これまで知られている最大の高品質のVerilogデータセットを提示し、データセットの評価、関連する課題の解決、およびLLMベースのハードウェア生成の分野における将来の研究開発のための潜在的なアプリケーションを探求します。

Takeaways、Limitations

Takeaways:
LLMベースのハードウェア設計を自動化するための大規模で高品質のVerilogデータセットを提供します。
効率的なデータベース管理と前処理パイプラインの構築方法を提示します。
LLMベースのハードウェア生成分野の将来の研究方向を提示する。
Limitations:
データセットの品質と多様性の追加の評価が必要になる場合があります。
提示されたデータセットがすべての種類のハードウェア設計に適用可能であるかどうかはさらに研究が必要です。
データセットのサイズは、将来のLLMの発展に応じて十分ではない可能性があります。
👍