Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jumeaux numériques HPC pour l'évaluation des politiques de planification, des structures d'incitation et de leur impact sur l'alimentation et le refroidissement

NLKI : un cadre d'intégration de connaissances en langage naturel léger pour améliorer les petits VLM dans les tâches VQA de bon sens

Interact-Custom : Génération d'images d'interaction homme-objet personnalisées

Un cadre auto-supervisé de mélange d'experts pour la recommandation multi-comportementale

MIDAS : Synthèse numérique-humaine interactive multimodale via la génération vidéo autorégressive en temps réel

De la Tabula Rasa aux capacités émergentes : découvrir les compétences des robots grâce à la diversité de qualité non supervisée du monde réel

Recâblage de graphes basé sur la triangulation dynamique pour les réseaux neuronaux graphiques

STDiff : un cadre de diffusion de transition d'état pour l'imputation de séries chronologiques dans les systèmes industriels

Les LLM ne supportent pas la pression des pairs : ils s'effondrent sous les interactions sociales multi-agents

Graphique-R1 : Encourager la capacité d'apprentissage graphique à zéro coup dans les LLM via le raisonnement explicite

Amélioration de la parole spécifique à la modalité et fusion adaptative au bruit pour le cadre des microphones acoustiques et à conduction corporelle

Les humains perçoivent des récits erronés à partir de textes de raisonnement de l'IA

SpecVLM : amélioration du décodage spéculatif des LLM vidéo via l'élagage des jetons guidé par un vérificateur

Acteur-critique de Pareto pour la co-optimisation de la communication et du calcul dans les services d'apprentissage fédérés non coopératifs

Apprendre à conduire de manière éthique : intégrer le raisonnement moral à la conduite autonome

IA générative contre le braconnage : correspondance des flux composites latents pour la conservation de la faune sauvage

Détection de faux documents d'identité respectueuse de la confidentialité : méthodologie, référence et algorithmes améliorés (FakeIDet2)

Au-delà de la pierre de Rosette : les forces d'unification dans la dynamique de généralisation

Vers l'équité : atténuer les préjugés politiques dans les masters de droit

Compression de contexte dynamique pour un RAG efficace

Validation croisée non redondante à k plis

Ingénierie rapide et efficacité des grands modèles linguistiques pour améliorer la productivité humaine

Un ensemble de données de recettes très propre avec annotation des états des ingrédients pour la tâche de sondage d'état

Loi d'entropie-mémorisation : évaluation de la difficulté de mémorisation des données dans les LLM

Les joies de la prédiction conforme catégorique

Manipulation contradictoire de modèles de raisonnement à l'aide de représentations internes

Théorie de l'esprit agent à agent : tester la conscience de l'interlocuteur parmi de grands modèles linguistiques

Une méthode d'intelligence artificielle hybride pour estimer le scintillement dans les systèmes électriques (les modifications sont indiquées)

GLProtein : Apprentissage de la représentation des protéines tenant compte de la structure globale et locale

Programmer un jeu d'inéquivalence sémantique avec de grands modèles de langage

DSO : Alignement des générateurs 3D avec les retours de simulation pour une meilleure solidité physique

Amélioration de la quantification grâce à l'extension du modèle post-formation

Navigation sociale sûre et efficace à travers des régions de sécurité explicables basées sur des caractéristiques topologiques

Une approche simple de l'apprentissage par imitation sensible aux contraintes avec application à la course autonome

Réseau nnU fédéré pour la segmentation des images médicales préservant la confidentialité

ExPath : inférence de voies ciblées pour les bases de connaissances biologiques via l'apprentissage et l'explication de graphes

Amélioration de la génération automatique d'invariants de boucle pour les programmes complexes avec de grands modèles de langage

RevPRAG : Révélation des attaques par empoisonnement dans la génération augmentée par récupération grâce à l'analyse d'activation LLM

Regroupement de données catégoriques par ordre de valeur Apprentissage métrique de distance estimée

Application de l'IA aux méthodes formelles - une analyse des tendances actuelles

Réexamen des performances de GAE dans la prédiction de liens

Voir puis dire : Améliorer l'extraction d'informations clés grâce à la vision ancrée

Amélioration des performances d'inférence en langage naturel grâce au Knowledge Graph pour la vérification automatisée des faits liés à la COVID-19 en indonésien

Puppet-Master : Mise à l'échelle de la génération de vidéos interactives en tant que priorité de mouvement pour la dynamique au niveau des pièces

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

SoAy : une méthodologie basée sur une API LLM pour la recherche d'informations académiques

ÉTude de la robustesse de l'apprentissage contrefactuel pour classer les modèles : une étude de reproductibilité

Repenser la régularisation de l'invariance dans l'entraînement contradictoire pour améliorer le compromis robustesse-précision

Formation et dynamique des réseaux parmi les multi-LLM

NetGPT : transformateur pré-entraîné génératif pour le trafic réseau

OLKAVS : un ensemble de données vocales audiovisuelles coréennes ouvertes à grande échelle

Explicabilité des méthodes de traitement et de recherche de texte : une enquête

La machine à penser de Ramon Llull pour l'idéation automatisée

RLMR : Apprentissage par renforcement avec récompenses variées pour l'écriture créative

Agents titulaires d'un LLM pour la cartographie du paysage concurrentiel dans le cadre de la due diligence relative aux actifs pharmaceutiques

MSARL : Découplage du raisonnement et de l'utilisation des outils grâce à l'apprentissage par renforcement multi-petits agents

Découverte algorithmique automatisée pour la détection des ondes gravitationnelles guidée par la recherche d'arbres de Monte Carlo évolutifs informés par LLM

Les grands modèles linguistiques peuvent-ils développer un raisonnement stratégique ? Apprentissage des échecs : perspectives post-formation

La technologie comme territoire inexploré : l'intégrité contextuelle et la notion d'IA comme nouveau terrain éthique

Principes possibles pour les agents d'apprentissage à structure alignée

OptiMUS-0.3 : Utilisation de grands modèles de langage pour modéliser et résoudre des problèmes d'optimisation à grande échelle

De l'invite au produit : assemblage génératif par manipulation bimanuelle

OnGoal : Suivi et visualisation des objectifs conversationnels dans un dialogue multi-tours avec de grands modèles linguistiques

Mélange de contextes pour la génération de vidéos longues

FakeParts : une nouvelle famille de DeepFakes générés par l'IA

Permettre un accès équitable à un raisonnement financier fiable

Veritas : Détection généralisable de deepfakes via un raisonnement basé sur les modèles

Comprendre, protéger et améliorer la cognition humaine grâce à l'IA générative : synthèse de l'atelier « Outils de réflexion » du CHI 2025

Contrôle de l'alignement temporel de l'inférence pour les modèles de diffusion avec guidage par apprentissage par renforcement

ChainReaction ! Approche structurée avec chaînes causales comme représentations intermédiaires pour des réponses vidéo causales améliorées et explicables

Planification de mouvement kinodynamique via des arbres de diffusion

ExpertSim : Simulation rapide de détecteurs de particules à l'aide d'un mélange d'experts génératifs

WoW-Bench : évaluation de la perception acoustique fine dans les modèles audio-langagiers via les vocalisations des mammifères marins

ProactiveEval : un cadre d'évaluation unifié pour les agents de dialogue proactif

Défis de recherche dans les systèmes de gestion de bases de données relationnelles pour les requêtes LLM

Récompenses vérifiables quantiques pour l'assistant de code Qiskit post-formation

Injection et transformation de vulnérabilités par des agents d'IA avec un raisonnement optimisé

JADES : un cadre universel pour l'évaluation des jailbreaks via la notation décompositionnelle

Apprentissage de modèles primitifs du monde incarné : vers un apprentissage robotique évolutif

Tests de pénétration multi-agents IA pour le Web

Fonctions de barrière de contrôle prédictif et sensible à l'incertitude : interaction homme-robot plus sûre grâce à la prévision probabiliste des mouvements

Exploration de l'apprentissage automatique et des modèles linguistiques pour la détection multimodale de la dépression

Reconnaissance des émotions vocales via la sélection de scores tenant compte de l'entropie

Enregistrement 3D basé sur Surfel avec fonctionnalités SE(3) équivariantes

ÉValuation de la généralisation compositionnelle dans les modèles VLM et de diffusion

Classification plus sûre des lésions cutanées avec évaluation de la carte de probabilité d'activation de classe globale et SafeML

Libérer l'incertitude : désapprentissage automatique efficace pour une IA générative

Signes de difficultés : repérer les distorsions cognitives dans la langue et le registre

Renverser le sort : amplification d'alignement légère via une injection de sécurité de premier rang

Au-delà de l'évidence : une enquête sur la reconnaissance de concepts abstraits pour la compréhension des vidéos

SKGE-SWIN : Prédiction et navigation de points de cheminement de véhicule autonome de bout en bout à l'aide du transformateur Swin à saut d'étape

Robustesse à l'occlusion du CLIP pour la classification des véhicules militaires

SeqVLM : Raisonnement de séquences multi-vues guidé par proposition via VLM pour une mise à la terre visuelle 3D sans plan

Avantages prouvés de l'apprentissage intégré aux outils pour les grands modèles linguistiques

${C}^{3}$-GS : Apprentissage d'une fonctionnalité contextuelle, interdimensionnelle et inter-échelle pour un étalement gaussien généralisable

Repenser les tests pour les applications LLM : caractéristiques, défis et protocole d'interaction léger

EEGDM : Apprentissage de la représentation EEG avec le modèle de diffusion latente

Annotation générative pour la correction des entités nommées ASR

MobileCLIP2 : Améliorer la formation renforcée multimodale

Répartition des tâches pour les machines autonomes à l'aide de l'intelligence computationnelle et de l'apprentissage par renforcement profond

Interact-Custom : Génération d'images d'interaction homme-objet personnalisées

Created by

Haebom

Auteur

Zhu Xu, Zhaowen Wang, Yuxin Peng, Yang Liu

Contour

Cet article se concentre sur la génération d'images synthétiques et personnalisées, combinant plusieurs concepts. Les recherches existantes se sont principalement concentrées sur la préservation de l'apparence des objets cibles, négligeant le contrôle fin des interactions entre eux. Cet article propose un défi appelé « Génération d'images d'interaction homme-objet personnalisée » (CHOI), centré sur les scénarios d'interaction homme-objet. CHOI nécessite à la fois la préservation de l'identité des humains et des objets cibles et le contrôle de la sémantique des interactions entre eux. Les principaux défis de CHOI sont : (1) la préservation simultanée de l'identité et le contrôle des interactions nécessitent la décomposition des humains et des objets en caractéristiques d'identité autonomes et en caractéristiques d'interaction basées sur les poses. Cependant, les jeux de données d'images HOI existants ne fournissent pas d'échantillons idéaux pour l'apprentissage de cette décomposition ; et (2) des configurations spatiales inappropriées entre humains et objets peuvent entraîner un manque de sémantique d'interaction souhaitée. Pour résoudre ce problème, nous concevons un modèle en deux étapes, Interact-Custom, en traitant un jeu de données à grande échelle contenant des échantillons de paires homme-objet identiques avec des poses d'interaction différentes. Interact-Custom modélise d'abord explicitement la configuration spatiale en générant un masque de premier plan illustrant le comportement d'interaction. Il génère ensuite des cibles humaines et des objets qui interagissent tout en préservant leurs caractéristiques identitaires, guidées par ce masque. Interact-Custom propose également une fonctionnalité optionnelle permettant de spécifier l'union de l'image d'arrière-plan et des emplacements cible humain-objet, offrant ainsi un haut niveau de contrôle du contenu. Des expériences approfondies sur les métriques personnalisées pour la tâche CHOI démontrent l'efficacité de l'approche proposée.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons CHOI, un nouveau défi dans le domaine de la génération d'images d'interaction homme-objet, et proposons Interact-Custom, un modèle efficace pour cela.

◦

Développement d’une technologie permettant simultanément la préservation de l’identité et le contrôle des interactions entre les humains et les objets.

◦

Offre aux utilisateurs un contrôle élevé du contenu.

◦

Présentation d’une stratégie d’apprentissage efficace utilisant des ensembles de données à grande échelle.

•

Limitations:

◦

L’évaluation des performances du modèle proposé peut dépendre de mesures spécifiques.

◦

Les performances de généralisation pour différents types d’interactions homme-objet nécessitent une validation supplémentaire.

◦

Nous avons construit un nouvel ensemble de données pour surmonter les limites de l'ensemble de données d'images HOI existant, mais il peut y avoir des limites dans l'échelle et la diversité de l'ensemble de données.

◦

Peut avoir une capacité limitée à gérer des scénarios d’interaction complexes et divers.

Voir le PDF

Made with Slashpage