本論文は、大規模言語モデル(LLM)のサプライチェーンに存在する脆弱性、偏向、悪意のあるコンポーネントを特定し、モデルの公平性を改善し、規制フレームワークの遵守を確実にするための研究を提示します。既存のLLMは、基本モデルまたは事前訓練されたモデルと外部データセットを使用しているため、この問題を回避できないことに着目して、モデルとデータセットとの関係を中心にLLMサプライチェーンを研究しています。この目的のために、LLMサプライチェーン情報を体系的に収集する方法論を設計し、モデルとデータセット間の関係を表す新しい有向異種グラフ(402,654ノードと462,524エッジ)を構築してさまざまな分析を実行し、さまざまな興味深い結果を導きます。