Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LL3M: Large Language 3D Modelers

Created by
  • Haebom

作者

Sining Lu, Guan Chen, Nam Anh Dinh, Itai Lang, Ari Holtzman, Rana Hanocka

概要

LL3Mは、事前に訓練された巨大言語モデル(LLM)を活用して、Blenderで解釈可能なPythonコードを作成することによって3Dアセットを生成するマルチエージェントシステムです。従来の3Dデータセットから学習する生成的アプローチとは異なり、フォーム作成をコード作成タスクに再構成して、モジュール性、編集の容易さ、アーティストワークフローとの統合を強化します。テキストプロンプトが表示されると、LL3MはプロフェッショナルなLLMエージェントチームを調整して、Blenderスクリプトを計画、検索、作成、デバッグ、および改善してジオメトリと外観を作成および編集します。生成されたコードは、シーンとオブジェクトの高レベル、解釈可能で、人間が読めるように、よく文書化された表現で機能し、さまざまな無制限の形状、材料、シーンに精巧なBlenderコンポーネント(Bメッシュ、ジオメトリ修飾子、シェーダーノードなど)を最大限に活用します。このコードは、コード調整または手続き型パラメータを介して追加のエージェントと人間の編集と実験のための多くの方法を提供します。このメディアは、システム内の共同創作ループを自然に可能にします。エージェントはコードと視覚資料を使用して自動的に自己批判を実行することができ、反復的なユーザーガイドラインは資産を改善するための直感的な方法を提供します。エージェント間の共有コードコンテキストは以前の試みに対する認識を可能にし、Blender APIドキュメントで構築された検索拡張生成の知識ベースであるBlenderRAGは、高度なモデリングタスクとコード精度を強化する例、タイプ、および関数をエージェントに提供します。さまざまなフォームカテゴリ、スタイルと材料の編集、ユーザー主導の改善にわたってLL3Mの効果を示しています。実験は、コードが3D資産を生成するための生成的で解釈可能な媒体としての力を示しています。プロジェクトページはhttps://threedle.github.io/ll3m입니다

Takeaways、Limitations

Takeaways:
3Dアセットを生成するための新しいパラダイムを提示します。
さまざまなフォーム、スタイル、マテリアルサポート:Blenderのさまざまな機能を活用して、複雑で多様な3Dモデルを作成できます。
ユーザーとのコラボレーション生成プロセスのサポート:コードベースの反復的な修正と改善が可能。
高品質、解釈可能なコード生成: 生成されたコードは人が理解し修正することができ、使いやすさを高める。
Limitations:
LLMとBlender APIへの依存性:LLMとBlender APIのパフォーマンスと制限の影響を受けます。
複雑なモデルを作成するとパフォーマンスが低下する可能性:複雑な3Dモデルを作成するにはより多くの時間とリソースが必要です。
コードのデバッグとエラー処理の難しさ:生成されたコードのバグ修正とエラー処理に追加の努力が必要です。
Blenderの専門知識の必要性:生成されたコードを理解して修正するには、Blenderに関するある程度の知識が必要です。
👍