Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CEHR-XGPT : un modèle de base multitâche évolutif pour les dossiers médicaux électroniques

Dévoilement de la réponse des grands modèles vision-langage aux jetons visuellement absents

Stratégies d'apprentissage adaptatif pour la classification des figures mitotiques dans le défi MIDOG2025

MitoDetect++ : un pipeline robuste pour la détection de mitose et le sous-typage atypique

Aligner-puis-diriger : adapter les modèles d'action vision-langage grâce à un guidage latent unifié

Optimiseurs de pré-entraînement fantastiques et où les trouver

Vers une géolocalisation interprétable : un cadre d'alignement global image-GPS sensible aux concepts

TECP : prédiction conforme à l'entropie des jetons pour les LLM

Le piège de la complexité : le masquage d'observation simple est aussi efficace que le résumé LLM pour la gestion du contexte des agents

Planification de mouvement kinodynamique via des arbres de diffusion

ÉQuité axée sur les compétences dans l'apprentissage multi-agents pour la collaboration dans le secteur de la santé

Atténuation des hallucinations dans les modèles TTS basés sur LM via l'alignement de la distribution à l'aide de GFlowNets

AgentArmor : Application de l'analyse de programme sur la trace d'exécution de l'agent pour se défendre contre l'injection d'invite

HuggingGraph : Comprendre la chaîne d'approvisionnement de l'écosystème LLM

Tendances en matière de sécurité alimentaire en Europe : informations tirées de la base de données CHEFS (CompreHensive European Food Safety) de 392 millions d'entrées

Simple mais efficace : une approche théorique de l'information pour la quantification de l'incertitude multi-LLM

BayesSDF : Estimation de l'incertitude laplacienne basée sur la surface pour la géométrie 3D avec champs de distance signés neuronaux

Renforcer les jumeaux numériques Bridge en comblant le fossé des données grâce à un cadre de synthèse unifié

Le théorème des caractéristiques à la convergence : une alternative de premier principe à l'Ansatz des caractéristiques neuronales pour la façon dont les réseaux apprennent les représentations

Génération rapide de structures cristallines assistée par l'IA vers un environnement local cible

Premiers pas vers l'écoute des agents LLM : une étude de cas avec le gameplay de Donjons et Dragons

TokUR : Estimation de l'incertitude au niveau du jeton pour le raisonnement sur les modèles de langage volumineux

Atteinte à la confidentialité : une attaque de reconstruction de données par hyperplan dans l'apprentissage fédéré

AutoPDL : optimisation automatique des invites pour les agents LLM

RailGoerl24 : Ensemble de données CV 2024 du centre d'essais ferroviaires de Görlitz

Révéler les représentations neuronales d'ordre supérieur de l'incertitude avec le modèle d'estimation du bruit par diffusion basée sur le renforcement (NERD)

PromptGuard : Modération de contenu non sécurisé guidée par invite logicielle pour les modèles texte-image

Découverte de traces d'usurpation pour une protection faciale explicable basée sur l'apprentissage profond

La sensibilisation à la sécurité de l'information des grands modèles linguistiques

Détection automatique des modèles trompeurs en ligne

HyperAgent : agents d'ingénierie logicielle généralistes pour résoudre des tâches de codage à grande échelle

Détection automatisée des pathologies sous-diagnostiquées par imagerie opportuniste

Optimisation sélective des préférences via l'estimation de la fonction de récompense au niveau du jeton

ATHAR : un ensemble de données diversifié et de haute qualité pour la traduction de l'arabe classique vers l'anglais

PersonaGym : Évaluation des agents Persona et des LLM

CFaults : Diagnostic basé sur un modèle pour la localisation des défauts dans les programmes C avec plusieurs cas de test

De Frege à chatGPT : compositionnalité dans le langage, la cognition et les réseaux neuronaux profonds

AnyGPT : LLM multimodal unifié avec modélisation de séquences discrètes

Démystifier les chaînes, les arbres et les graphiques de pensées

Analyse de survie avec régularisation contradictoire

Net2Brain : une boîte à outils pour comparer les modèles de vision artificielle avec les réponses du cerveau humain

L'illusion de personnalité : révéler la dissociation entre auto-évaluation et comportement dans les masters de droit

PersonaTeaming : explorer comment l'introduction de personas peut améliorer le red-teaming automatisé par IA

Rapport technique UI-TARS-2 : Amélioration de l'agent GUI grâce à l'apprentissage par renforcement multi-tours

Planification dynamique des agents spéculatifs

AI-SearchPlanner : Recherche agentique modulaire via l'apprentissage par renforcement multi-objectifs Pareto-Optimal

Graph RAG comme modèle de choix humain : création d'un agent de mobilité piloté par les données avec chaîne de préférences

MHSNet : un réseau de représentation sémantique hiérarchique basé sur MoE pour une détection précise des doublons de CV avec un modèle linguistique étendu

FutureX : un benchmark avancé en direct pour les agents LLM en matière de prédiction du futur

MeLA : une architecture métacognitive pilotée par LLM pour la conception heuristique automatique

ÉDucation conversationnelle à grande échelle : un flux de travail multi-agents LLM pour l'apprentissage procédural et l'évaluation de la qualité pédagogique

DiMo-GUI : Amélioration de la mise à l'échelle du temps de test dans l'interface utilisateur graphique via le raisonnement visuel sensible aux modalités

Ne l'inventez pas : préserver la conscience de l'ignorance dans la préparation du LLM

Traduction d'algorithmes d'apprentissage fédéré Python en processus CSP à l'aide de ChatGPT

ArtRAG : Génération augmentée par récupération avec contexte structuré pour la compréhension des arts visuels

Compétences épistémiques : Raisonnement sur la connaissance et l'oubli

Amélioration des agents d'interface utilisateur graphique mobile : une approche axée sur les vérificateurs pour un déploiement pratique

Agents GUI : une enquête

Vérification du réseau neuronal avec PyRAT

Antidote : Alignement de sécurité post-réglage fin pour les grands modèles de langage contre les réglages fins nuisibles

Intégration de graphes de connaissances fédérés de faible dimension via la distillation des connaissances

MMoE : Détection robuste des spoilers avec informations multimodales et mélange d'experts sensible au domaine

WinT3R : Reconstruction de flux basée sur une fenêtre avec pool de jetons de caméra

Codage croisé au fil du temps : suivi de l'émergence et de la consolidation des représentations linguistiques tout au long de la formation préparatoire au LLM

Rapport technique SpikingBrain : grands modèles inspirés de Spiking Brain

Mise à l'échelle des performances de pré-entraînement des grands modèles linguistiques

Recomposer : édition audio générative guidée par événement

COGITAO : un cadre de raisonnement visuel pour étudier la compositionnalité et la généralisation

Incertain mais utile : exploiter la variabilité du CNN pour augmenter les données

CURE : Désapprentissage contrôlé pour des intégrations robustes – Atténuation des raccourcis conceptuels dans les modèles de langage pré-entraînés

HoPE : codage positionnel rotatif hyperbolique pour une modélisation stable des dépendances à longue portée dans les grands modèles de langage

RapidGNN : Formation distribuée économe en énergie et en communication sur les réseaux neuronaux graphiques à grande échelle

Amélioration de la classification des nuages de points 3D avec ModelNet-R et Point-SkipNet

Agents d'IA pour les tests Web : une étude de cas en situation réelle

ÉLagage CNN avec contrainte de précision pour une détection efficace et fiable des crises d'épilepsie basée sur l'EEG

Exploration des stabilités situées d'un système de génération de rythme par le biais d'un contre-interrogatoire variationnel

Génération et exécution de cas de test basés sur GenAI sur la plateforme SDV

ICR : clarification et réécriture itératives pour la recherche conversationnelle

ToM-SSI : Évaluation de la théorie de l'esprit dans les interactions sociales situées

Vers un étiquetage efficace des pixels pour la détection et la localisation des anomalies industrielles

Estimation de cible guidée par pointage via l'attention basée sur un transformateur

Augmentation antagoniste et échantillonnage actif pour une détection robuste des anomalies cybernétiques

Système multi-agents compatible LLM pour réseaux 6G : cadre et méthode de collaboration périphérique-terminal à double boucle

Récupération de la température de surface terrestre mondiale à haute résolution via un cadre d'apprentissage automatique couplé

Exploration d'une implémentation de pipeline d'apprentissage quantique pour les machines à vecteurs de support

DeGuV : Apprentissage par renforcement visuel guidé par la profondeur pour la généralisation et l'interprétabilité dans la manipulation

L'intelligence artificielle pour représenter et caractériser les systèmes quantiques

Rapport technique PLaMo 2

SpiderNets : estimation des niveaux de peur des images liées aux araignées grâce à des modèles de vision

Le paradoxe de la catastrophe : reconnaître le risque d'extinction réduit l'incitation à le prévenir

Une politique de diffusion axée sur les connaissances pour une conduite autonome de bout en bout basée sur un routage expert

REMOTE : Un cadre d'extraction de relations multimodales unifié avec transport optimal multiniveau et mélange d'experts

PropVG : ancrage visuel de bout en bout basé sur des propositions avec discrimination multi-granularité

Exploration des corrélations spatiales-angulaires non locales avec un cadre hybride Mamba-Transformer pour la super-résolution en champ lumineux

Compression de liaison fronthaul pilotée par l'IA dans les systèmes de communication sans fil : analyse et conception de la méthode

Vers une dermatologie accessible : classification des lésions cutanées à l'aide de modèles d'apprentissage profond sur des images acquises sur mobile

Désapprentissage des graphes : suppression efficace des nœuds dans les réseaux neuronaux graphes

Améliorer la diversité dans les grands modèles linguistiques grâce aux processus ponctuels déterminants

Transformateur amélioré VARMA pour la prévision des séries chronologiques

Le LLM a quitté le chat : Preuves de préférences en matière de caution dans les grands modèles linguistiques

LL3M : Modélisateurs 3D en grands langages

Created by

Haebom

Auteur

Sining Lu, Guan Chen, Nam Anh Dinh, Itai Lang, Ari Holtzman, Rana Hanocka

Contour

LL3M est un système multi-agents qui génère des ressources 3D en exploitant des modèles de langage étendus (LLM) pré-entraînés pour écrire du code Python interprétable dans Blender. Contrairement aux approches génératives traditionnelles qui apprennent à partir de jeux de données 3D, il redéfinit la génération de formes comme une tâche d'écriture de code, améliorant ainsi la modularité, la possibilité de modification et l'intégration aux workflows des artistes. À partir d'une invite textuelle, LL3M coordonne une équipe d'agents LLM spécialisés pour planifier, découvrir, écrire, déboguer et affiner des scripts Blender afin de générer et de modifier la géométrie et les apparences. Le code généré fonctionne sur une représentation de haut niveau, interprétable, lisible par l'homme et bien documentée des scènes et des objets, exploitant des composants Blender sophistiqués (par exemple, B-mesh, modificateurs de géométrie, nœuds de shader) pour une grande variété de formes, de matériaux et de scènes. Ce code offre de nombreuses possibilités d'ajout d'agents, d'édition et d'expérimentation humaines via l'optimisation du code ou des paramètres procéduraux. Ce support facilite naturellement une boucle créative collaborative au sein du système. Les agents peuvent s'autocritiquer automatiquement à l'aide du code et des visuels, et un guidage utilisateur itératif offre un moyen intuitif d'améliorer les ressources. Le contexte de code partagé entre les agents permet de connaître les tentatives précédentes, et BlenderRAG, une base de connaissances générative enrichie par la recherche, construite sur la documentation de l'API Blender, fournit aux agents des exemples, des types et des fonctions qui améliorent les tâches de modélisation avancées et la précision du code. L'efficacité de LL3M est démontrée sur diverses catégories de formes, l'édition de styles et de matériaux, et les améliorations pilotées par l'utilisateur. Les expériences démontrent la puissance du code comme support génératif et interprétable pour la création de ressources 3D. La page du projet est https://threedle.github.io/ll3m입니다 .

Takeaways, Limitations

•

Takeaways:

◦

Présentation d'un nouveau paradigme pour la création d'actifs 3D : amélioration de la modularité, de l'éditabilité et de l'interprétabilité grâce à la génération de code.

◦

Prise en charge d'une variété de formes, de styles et de matériaux : créez des modèles 3D complexes et divers en exploitant les diverses fonctionnalités de Blender.

◦

Prise en charge des processus de création collaborative avec les utilisateurs : permettant la modification et l'amélioration itératives du contenu basé sur le code.

◦

Générez du code interprétable de haute qualité : le code généré est lisible et modifiable par l’homme, ce qui augmente sa convivialité.

•

Limitations:

◦

Dépendance à l'API LLM et Blender : affectée par les performances et les limitations de l'API LLM et Blender.

◦

Dégradation potentielle des performances lors de la création de modèles complexes : la création de modèles 3D complexes nécessite davantage de temps de calcul et de ressources.

◦

Difficulté de débogage et de gestion des erreurs : des efforts supplémentaires sont nécessaires pour corriger les bogues et gérer les erreurs dans le code généré.

◦

Expertise Blender requise : Une certaine connaissance de Blender est requise pour comprendre et modifier le code généré.

Voir le PDF

Made with Slashpage