Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

Tokenizer holistique pour la génération d'images autorégressives

MAGIC : Inpainting par diffusion guidée par masque avec perturbations multi-niveaux et alignement contextuel pour la génération d'anomalies en quelques prises

Acquisition de commandes sous pression concurrentielle : une approche d'apprentissage par renforcement à adaptation rapide pour les stratégies de subvention des services de VTC

Vers un terrain de jeu pour démocratiser l'expérimentation et l'analyse comparative des agents d'IA pour le dépannage des réseaux

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Recherche complète basée sur GPU pour la minimisation non linéaire soumise à des limites

Détoxification du texte : efficacité des données, préservation sémantique et généralisation du modèle

Optimisation des politiques ANFIS en fonction des politiques à l'aide de l'optimisation des politiques proximales

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

LD-RPS : Restauration d'image unifiée Zero-Shot via échantillonnage postérieur récurrent par diffusion latente

Horus : un protocole de délégation sans confiance en cas d'incertitude

Les anagrammes visuelles révèlent des différences cachées dans le traitement holistique des formes entre les modèles de vision

Forêt aléatoire raffinée et consciente de la diversité

Transformateur d'amélioration d'attention GLU

La récompense implicite comme pont : une vision unifiée des connexions SFT et DPO

CRISP-SAM2 : SAM2 avec interaction intermodale et invite sémantique pour la segmentation multi-organes

Traitement, preuves, imitation et discussion

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Vers une compréhension des habitudes cognitives des grands modèles de raisonnement

SEAL : Conduite autonome coopérative sécurisée de bout en bout basée sur un modèle vision-langage avec modélisation adaptative à longue traîne

À L'intérieur de vous se trouvent de nombreux loups : utiliser des modèles cognitifs pour interpréter les compromis de valeur dans les LLM

IA et développement logiciel agile : de la frustration au succès – Résumé de l'atelier XP2025

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

NOVA : Navigation via l'autonomie visuelle centrée sur l'objet pour le suivi de cibles à grande vitesse dans des environnements non structurés sans GPS

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

RoboMonkey : Adaptation de l'échantillonnage et de la vérification au temps de test pour les modèles vision-langage-action

Human2LocoMan : apprentissage de la manipulation polyvalente des quadrupèdes grâce à un entraînement préalable

Casper : Déduction d'intentions diverses pour la téléopération assistée avec des modèles de langage visuel

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Prédiction robuste des propriétés moléculaires via la densification de données étiquetées rares

LearnAlign : Sélection de données de raisonnement pour l'apprentissage par renforcement dans les grands modèles linguistiques, basée sur un alignement de gradient amélioré

AutoMind : Agent adaptatif et compétent pour la science des données automatisée

HPCTransCompile : un ensemble de données généré par un compilateur d'IA pour la transpilation CUDA haute performance et l'exploration préliminaire LLM

Vers un diagnostic pratique de la maladie d'Alzheimer : un modèle neuronal à pointes léger et interprétable

Les géométries de la vérité sont orthogonales entre les tâches

TrajFlow : Prédiction de mouvement multimodale via la correspondance de flux

Assemblage assisté par graphes pour l'apprentissage par renforcement hiérarchique hors ligne

Rendre un pipeline prêt pour la production : défis et enseignements tirés dans le domaine de la santé

FinBERT2 : un encodeur bidirectionnel spécialisé pour combler le fossé dans le déploiement de modèles de langage volumineux spécifiques à la finance

Systèmes de recommandation, stigmergie et tyrannie de la popularité

HAVIR : Vision hiérarchique pour la reconstruction d'images à l'aide de la diffusion polyvalente guidée par CLIP

SLAC : espace d'action latent pré-entraîné par simulation pour l'apprentissage par renforcement du corps entier dans le monde réel

RewardAnything : Modèles de récompense généralisables basés sur des principes

BiMa : Vers une atténuation des biais pour la récupération de textes et de vidéos grâce à l'aide des éléments de scène

Une approche théorique de l'information quantique pour les modèles probabilistes exploitables

Jouer avec Transformer à plus de 30 FPS via Next-Frame Diffusion

SC-LoRA : équilibre entre un réglage fin efficace et la préservation des connaissances via LoRA à sous-espace restreint

Recherche approfondie à CheckThat! 2025 : identification d'articles scientifiques à partir de mentions implicites sur les réseaux sociaux grâce à la recherche hybride et au reclassement

Raisonnement inductif étendu pour l'inférence de préférences personnalisées à partir de signaux comportementaux

Mieux vaut prévenir que guérir ? Problème de réaction excessive des modèles de langage visuel dans la reconnaissance visuelle des urgences.

Mise à l'échelle adaptative du temps d'inférence via la recherche par diffusion cyclique

Adaptation du domaine VLM pour la compréhension des vidéos de football

Vers une sémantique universelle avec de grands modèles de langage

ReviewInstruct : une méthode de génération de conversations multi-tours basée sur la révision pour les grands modèles linguistiques

Une exploration des images par défaut dans la génération de texte en image

Agrégation des concepts d'équité et de précision dans les algorithmes de prédiction

PRUNE : un cadre de réparation basé sur les correctifs pour le désapprentissage certifiable des réseaux neuronaux

Amélioration de la localisation des objets satellites grâce aux convolutions dilatées et au regroupement spatial assisté par l'attention

Découverte de duplicatas explicables de manuscrits anciens, de taille grossière à fine

La réécriture des données de pré-formation améliore les performances du LLM en mathématiques et en code

Le rôle des LLM open source dans l'avenir de la géoIA

EasyEdit2 : un cadre de pilotage facile à utiliser pour l'édition de modèles de langage volumineux

L'IA pour le monde ouvert : les principes d'apprentissage

Vers une fusion explicable et un apprentissage équilibré dans l'analyse des sentiments multimodaux

TerraMind : Multimodalité générative à grande échelle pour l'observation de la Terre

Cadre NativQA : permettre aux LLM de s'appuyer sur des connaissances natives, locales et quotidiennes

Brèche dans le bouclier : dévoiler les vulnérabilités des grands modèles linguistiques

Quantification de la robustesse : un cadre d'analyse comparative pour la prévision de l'apprentissage profond dans les systèmes cyberphysiques

Améliorer le dialogue personnalisé à plusieurs tours avec la récompense de curiosité

EAP4EMSIG – Amélioration de la microscopie événementielle pour l'analyse microfluidique de cellules individuelles

UNITYAI-GUARD : détection de toxicité pionnière dans les langues indiennes à faibles ressources

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Identification et désambiguïsation de construction à l'aide de BERT : une étude de cas de NPN

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Apprentissage de la représentation de jetons discrets neuronaux pour une réduction extrême des jetons dans les modèles de langage vidéo volumineux

MASS : Sélection de données mathématiques via des graphiques de compétences pour la préformation de grands modèles linguistiques

Modélisation de contexte long avec récupération augmentée de mémoire classée

Sonder les sous-espaces latents dans le LLM pour la sécurité de l'IA : identifier et manipuler les états adverses

Les modèles linguistiques peuvent s'auto-améliorer lors de l'estimation de la valeur de l'état pour une meilleure recherche

RLAIF hors ligne : Pilotage des commentaires VLM pour RL via SFO

Intégration de l'intelligence biologique et de l'intelligence artificielle : mécanismes d'attention dans les interfaces cerveau-ordinateur

Réseaux neuronaux gradués

Les étudiants en master comprennent-ils la sécurité de leurs contributions ? Modération sans formation via des prototypes latents

FairFare : un outil de collecte participative de données sur le covoiturage pour renforcer les syndicats

Apprentissage continu fédéré : concepts, défis et solutions

UniForm : un transformateur de diffusion multitâche unifié pour la génération audio-vidéo

Simulation de code comme proxy pour les tâches d'ordre élevé dans les grands modèles de langage

Une approche efficace de recherche locale pour la découverte de communautés polarisées dans les réseaux signés

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

L'IA explicable pour les urgences en santé mentale revient : intégration des LLM à la modélisation prédictive

Génération de méta LoRA en contexte

Repenser le réglage des instructions de table

Expériences de microscopie autonome grâce à de grands agents modèles de langage

Segmentation statique par suivi : une approche efficace en termes d'étiquetage pour la segmentation fine des images d'échantillons

Poids aléatoires des DNN et émergence de points fixes

Sur l'expressivité et la généralisation de la longueur des modèles sélectifs d'espace d'état sur les langages réguliers

Réseau d'approximation de masque : une nouvelle approche de modèle de diffusion pour le sous-titrage des changements de télédétection

Améliorer la cohérence de la génération de vidéos longues sans réglage

Assemblage assisté par graphes pour l'apprentissage par renforcement hiérarchique hors ligne

Created by

Haebom

Auteur

Seungho Baek, parc Taegeon, parc Jongchan, Seungjun Oh, Yusung Kim

Contour

Les méthodes d'apprentissage par renforcement hiérarchique hors ligne existantes s'appuient sur l'apprentissage par super-politiques pour générer des séquences de sous-objectifs. Cependant, leur efficacité diminue à mesure que l'horizon de la tâche s'allonge et elles manquent de stratégies efficaces pour connecter les transitions d'état utiles sur différentes trajectoires. Dans cet article, nous proposons l'assemblage assisté par graphes (GAS), un nouveau cadre qui formule la sélection de sous-objectifs comme un problème d'exploration de graphes plutôt qu'un apprentissage explicite par super-politiques. En intégrant les états dans l'espace de représentation de la distance temporelle (TDR), GAS regroupe les états sémantiquement similaires sur différentes trajectoires en nœuds de graphes unifiés, permettant ainsi une liaison efficace des transitions. Il applique ensuite un algorithme du plus court chemin pour sélectionner les séquences de sous-objectifs au sein du graphe, et les politiques de bas niveau apprennent à atteindre ces sous-objectifs. Pour améliorer la qualité du graphe, nous introduisons une mesure d'efficacité temporelle (TE) qui améliore significativement les performances de la tâche en filtrant les états de transition bruyants ou inefficaces. GAS surpasse les méthodes HRL hors ligne précédentes pour les tâches de marche, de navigation et de manipulation. Il obtient notamment un score de 88,3 pour la tâche la plus connectée, dépassant largement le précédent meilleur score de 1,0. Le code source est disponible à l'adresse https://github.com/qortmdgh4141/GAS .

GitHub - qortmdgh4141/GAS

Contribute to qortmdgh4141/GAS development by creating an account on GitHub.

github.com

Takeaways, Limitations_

•

Takeaways:

◦

Nous présentons un nouveau cadre permettant de sélectionner efficacement des séquences de sous-cibles via l'exploration de graphes sans s'appuyer sur un apprentissage de politique de haut niveau.

◦

Relier efficacement les transitions d'état utiles sur différentes trajectoires à l'aide de la représentation de la distance temporelle (TDR).

◦

Améliorez la qualité des graphiques et améliorez les performances des tâches grâce à la mesure de l'efficacité temporelle (TE).

◦

Obtenez des performances supérieures aux méthodes existantes dans une variété de tâches (marche, navigation, manipulation).

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur les méthodes d’intégration efficaces dans l’espace TDR et l’optimisation de la métrique TE.

◦

Augmentation potentielle de la complexité de calcul à mesure que la taille du graphique augmente.

◦

Des paramètres d'hyperparamètres optimisés pour des tâches spécifiques sont requis.

Voir le PDF

Made with Slashpage