Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Sining Lu, Guan Chen, Nam Anh Dinh, Itai Lang, Ari Holtzman, Rana Hanocka
Contour
LL3M est un système multi-agents qui génère des ressources 3D en exploitant des modèles de langage étendus (LLM) pré-entraînés pour écrire du code Python interprétable dans Blender. Contrairement aux approches génératives traditionnelles qui apprennent à partir de jeux de données 3D, il redéfinit la génération de formes comme une tâche d'écriture de code, améliorant ainsi la modularité, la possibilité de modification et l'intégration aux workflows des artistes. À partir d'une invite textuelle, LL3M coordonne une équipe d'agents LLM spécialisés pour planifier, découvrir, écrire, déboguer et affiner des scripts Blender afin de générer et de modifier la géométrie et les apparences. Le code généré fonctionne sur une représentation de haut niveau, interprétable, lisible par l'homme et bien documentée des scènes et des objets, exploitant des composants Blender sophistiqués (par exemple, B-mesh, modificateurs de géométrie, nœuds de shader) pour une grande variété de formes, de matériaux et de scènes. Ce code offre de nombreuses possibilités d'ajout d'agents, d'édition et d'expérimentation humaines via l'optimisation du code ou des paramètres procéduraux. Ce support facilite naturellement une boucle créative collaborative au sein du système. Les agents peuvent s'autocritiquer automatiquement à l'aide du code et des visuels, et un guidage utilisateur itératif offre un moyen intuitif d'améliorer les ressources. Le contexte de code partagé entre les agents permet de connaître les tentatives précédentes, et BlenderRAG, une base de connaissances générative enrichie par la recherche, construite sur la documentation de l'API Blender, fournit aux agents des exemples, des types et des fonctions qui améliorent les tâches de modélisation avancées et la précision du code. L'efficacité de LL3M est démontrée sur diverses catégories de formes, l'édition de styles et de matériaux, et les améliorations pilotées par l'utilisateur. Les expériences démontrent la puissance du code comme support génératif et interprétable pour la création de ressources 3D. La page du projet est https://threedle.github.io/ll3m입니다 .
Takeaways, Limitations
•
Takeaways:
◦
Présentation d'un nouveau paradigme pour la création d'actifs 3D : amélioration de la modularité, de l'éditabilité et de l'interprétabilité grâce à la génération de code.
◦
Prise en charge d'une variété de formes, de styles et de matériaux : créez des modèles 3D complexes et divers en exploitant les diverses fonctionnalités de Blender.
◦
Prise en charge des processus de création collaborative avec les utilisateurs : permettant la modification et l'amélioration itératives du contenu basé sur le code.
◦
Générez du code interprétable de haute qualité : le code généré est lisible et modifiable par l’homme, ce qui augmente sa convivialité.
•
Limitations:
◦
Dépendance à l'API LLM et Blender : affectée par les performances et les limitations de l'API LLM et Blender.
◦
Dégradation potentielle des performances lors de la création de modèles complexes : la création de modèles 3D complexes nécessite davantage de temps de calcul et de ressources.
◦
Difficulté de débogage et de gestion des erreurs : des efforts supplémentaires sont nécessaires pour corriger les bogues et gérer les erreurs dans le code généré.
◦
Expertise Blender requise : Une certaine connaissance de Blender est requise pour comprendre et modifier le code généré.