Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

Stabilisation de l'alimentation pour les centres de données de formation à l'IA

ÉTude systématique des modèles d'apprentissage profond et des méthodes xAI pour la détection des régions d'intérêt dans les examens IRM

Documentation du déploiement avec Fabric : un référentiel de gouvernance de l'IA dans le monde réel

Surya : modèle fondateur de l'héliophysique

Des exemples concrets suffisent : optimiser les budgets d'annotation post-formation GRPO

MCLPD : apprentissage contrastif multi-vues pour la détection de la DP basée sur l'EEG dans les ensembles de données

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

VerilogLAVD : Génération de règles assistée par LLM pour la détection des vulnérabilités dans Verilog

Kourkoutas-Beta : un optimiseur Adam piloté par Sunspike avec une touche désertique

SecFSM : Génération de code Verilog guidée par un graphe de connaissances pour les machines à états finis sécurisées dans les systèmes sur puce

Renforcer le Web agentique : une architecture zéro confiance unifiée contre les menaces de la couche logique

LATTE : Apprentissage des transactions alignées et des intégrations textuelles pour les clients bancaires

Prédicateur : Système agentique papier-vidéo

Agoran : une place de marché ouverte et agentique pour l'automatisation du RAN 6G

Co-conception architecturale pour la détection d'anomalies Zero-Shot : découplage de la représentation et fusion dynamique des fonctionnalités dans CLIP

IBPS : Système indien de prévision des cautions

Diagnostic de la mémorisation dans le raisonnement en chaîne de pensée, un jeton à la fois

TS-Insight : Visualisation de l'échantillonnage de Thompson pour la vérification et l'IAX

Quand une meilleure vue mène à la cécité : une étude diagnostique du goulot d'étranglement informationnel dans les modèles de sous-titrage d'images CNN-LSTM

Seed-X : Créer un LLM solide en traduction multilingue avec les paramètres 7B

Génération de bibliothèques pMHC-I guidées par la structure à l'aide de modèles de diffusion

Apprentissage masqué intermodal pour la prédiction de la survie chez les patients atteints de CBNPC traités par ICI

MCA-RG : Amélioration des LLM grâce à l'alignement des concepts médicaux pour la génération de rapports de radiologie

KEA Explain : Explications des hallucinations à l'aide de l'analyse du noyau graphique

Preuves empiriques de la simulation d'alignement dans un petit LLM et techniques d'atténuation basées sur des invites

ÉTude des modèles fondamentaux de l'IoT : taxonomie et analyse basée sur des critères

Réseaux de régularisation profonde pour les problèmes inverses avec opérateurs bruyants

LMP-Cap : Génération de légendes de figures personnalisées avec des profils de figures multimodaux

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Compression de séquences de jetons sans perte via des méta-jetons

Génération de signaux cardiovasculaires polyvalents avec un transformateur de diffusion unifié

Sélection d'outils flexible grâce à l'alignement des attributs de faible dimension de la vision et du langage

Mutarjim : Améliorer la traduction bidirectionnelle arabe-anglais grâce à un modèle linguistique simplifié

MMiC : atténuer l'incomplétude des modalités dans l'apprentissage fédéré en cluster

Informatique collaborative Edge-Cloud sur l'intelligence distribuée et l'optimisation des modèles : une enquête

Sadeed : Promouvoir la diacritisation arabe grâce à un modèle linguistique simplifié

Annif à SemEval-2025 Tâche 5 : XMTC traditionnel complété par des LLM

CaRL : Apprentissage de politiques de planification évolutives avec des récompenses simples

Sur la cohérence des explications du GNN pour la détection des logiciels malveillants

Cequel : Interrogation rentable de grands modèles linguistiques pour le clustering de texte

Kuwain 1.5B : un SLM arabe via injection de langue

MuSeD : un ensemble de données multimodales en espagnol pour la détection du sexisme dans les vidéos sur les réseaux sociaux

TextSplat : fusion sémantique guidée par texte pour un étalage gaussien généralisable

VerifiAgent : un agent de vérification unifié pour le raisonnement par modèle de langage

Manipulation à long terme incarnée avec génération de code en boucle fermée et adaptation incrémentale à quelques coups

Revisiter la détection hors distribution dans la détection d'objets en temps réel : des pièges de référence à un nouveau paradigme d'atténuation

Un plaidoyer en faveur de la spécialisation dans les entités non humaines

Chaîne d'inférence pragmatique (PIC) : améliorer le raisonnement des LLM sur le langage implicite toxique authentique

Synthétique vs. Or : le rôle des étiquettes et des données générées par LLM dans la détection du cyberharcèlement

Innamark : une méthode de masquage d'informations par remplacement des espaces

La pensée inversée guidée par l'ontologie renforce les grands modèles de langage pour répondre aux questions du graphe de connaissances.

RefineCoder : Amélioration itérative de grands modèles de langage via l'affinement critique adaptatif pour la génération de code

Configuration unique, sécurité permanente : protocole d'agrégation d'apprentissage fédéré sécurisé à configuration unique avec confidentialité avant et arrière pour les utilisateurs dynamiques

Optimisation des invites auto-supervisée

Apprendre à générer des tests unitaires pour le débogage automatisé

Modélisation de la discrimination par abstraction causale

Modèles de langage volumineux pour la revue automatisée de la littérature : évaluation de la génération de références, de la rédaction de résumés et de la composition de revues

Agent d'évaluation : cadre d'évaluation efficace et incitatif pour les modèles génératifs visuels

Apprentissage rapide guidé par les connaissances pour l'assurance qualité des demandes dans le cadre de la revue de code public

Affiner les modèles fondamentaux pour coder les diagnostics à partir des dossiers médicaux vétérinaires

Teuken-7B-Base et Teuken-7B-Instruct : vers des masters européens

Grounded-VideoLLM : Amélioration de l'ancrage temporel précis dans les grands modèles de langage vidéo

Apprentissage continu pour la fusion de données multimodales d'une pince souple

BoostTrack++ : utiliser les informations des tracklets pour détecter davantage d'objets dans le cadre du suivi de plusieurs objets

OPDR : Réduction dimensionnelle préservant l'ordre pour l'intégration sémantique de données scientifiques multimodales

CREMA : un autoencodeur masqué régularisé contrastif pour des diagnostics ECG robustes dans tous les domaines cliniques

Génération de terrain 3D avec des automates cellulaires 2D

Débranchez et jouez avec les modèles de langage : Décomposer les experts en modèles de langage au moment de l'inférence

Utiliser une architecture cognitive pour prendre en compte l'anti-noir dans la conception et le développement des systèmes d'IA

ITL-LIME : Apprentissage par transfert basé sur les instances pour améliorer les explications locales dans les environnements de données à faibles ressources

ThinkTuning : instiller des réflexions cognitives sans distillation

Un « bon théorème régulateur » pour les agents incarnés

Agents prescriptifs basés sur RAG pour la maintenance automatisée (PARAM)

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Opus : un cadre d'intention rapide pour la génération de flux de travail complexes

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

C'est l'intention qui compte : évaluation des tentatives des LLM de Frontier pour persuader sur des sujets préjudiciables

GATES : planification dynamique des flux de travail en fonction des coûts via des réseaux d'attention graphique et une stratégie d'évolution

Conception automatique de programmes d'études pour une coordination homme-IA sans faille

PersonaBench : Évaluation des modèles d'IA pour la compréhension des informations personnelles via l'accès aux données utilisateur privées (synthétiques)

SycEval : Évaluation de la flagornerie des étudiants en LLM

CopyrightShield : Amélioration de la sécurité du modèle de diffusion contre les attaques de violation du droit d'auteur

VLASCD : un modèle d'action en langage visuel pour la conversation et la prise de décision simultanées

ÉTude de l'effet du contenu et du format des explications sur la compréhension et la confiance des utilisateurs dans les soins de santé

Sur les coûts d'action d'apprentissage à partir des plans d'entrée

Interaction homme-objet à partir d'instructions de niveau humain

Apprentissage stratégique non linéaire axé sur le bien-être

CRISPR-GPT pour l'automatisation agentique des expériences d'édition génétique

SceneGen : Génération de scènes 3D à image unique en un seul passage de rétroaction

Découverte de structures algébriques cachées via des transformateurs avec un GRPO à faisceau sensible au rang

LiveMCP-101 : Tests de stress et diagnostic des agents compatibles MCP sur des requêtes complexes

Dynamique des robots neuronaux

Analyse du raisonnement intégré aux outils : étude et analyse empiriques

« L'entrée du café semble-t-elle accessible ? Où est la porte ? » Vers des agents d'IA géospatiaux pour les requêtes visuelles

Formation complète au système Agentic RAG pour un raisonnement diagnostique traçable

Les modèles numériques surpassent les prévisions météorologiques extrêmes de l'IA

EcomMMMU : Utilisation stratégique des visuels pour des modèles de commerce électronique multimodaux robustes

Tutoriel sur l'unification probabiliste de la théorie de l'estimation, de l'apprentissage automatique et de l'IA générative

StreamMem : Mémoire cache KV indépendante des requêtes pour la compréhension du streaming vidéo

CaRL : Apprentissage de politiques de planification évolutives avec des récompenses simples

Created by

Haebom

Auteur

Bernhard Jaeger, Daniel Dauner, Jens Bei{\ss}wenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

Contour

Cet article étudie l'apprentissage par renforcement (RL) pour la planification privilégiée en conduite autonome. Les approches existantes sont basées sur des règles, mais manquent d'évolutivité. En revanche, l'apprentissage par renforcement offre une évolutivité élevée et évite le problème d'erreurs cumulatives de l'apprentissage par imitation. Les approches d'apprentissage par renforcement existantes pour la conduite autonome utilisent des fonctions de récompense complexes qui agrègent plusieurs récompenses individuelles, telles que la progression, la position et l'orientation. Cet article démontre que l'apprentissage par renforcement (PPO) ne parvient pas à optimiser ces fonctions de récompense lorsque la taille du mini-lot augmente, ce qui limite son évolutivité. Par conséquent, cet article propose une nouvelle conception de récompense qui optimise une récompense intuitive unique : l'achèvement du chemin. Les violations sont sanctionnées soit par la fin de l'épisode, soit par une diminution multiplicative de l'achèvement du chemin. Nous démontrons que l'apprentissage par renforcement (PPO) avec la récompense simple proposée s'adapte bien aux mini-lots de plus grande taille et améliore les performances. L'apprentissage avec des mini-lots de grande taille permet une mise à l'échelle efficace grâce au parallélisme des données distribuées. Nous avons étendu l'apprentissage à 300 millions d'échantillons dans CARLA et 500 millions d'échantillons dans nuPlan sur un seul nœud à 8 GPU. Le modèle obtenu a obtenu 64 DS sur le benchmark CARLA longest6 v2, surpassant ainsi largement les autres méthodes RL utilisant des récompenses plus complexes. Avec des modifications minimes de la méthode CARLA, il a également obtenu la meilleure approche basée sur l'apprentissage sur nuPlan. Sur le benchmark Val14, il a obtenu 91,3 points pour le trafic non réactif et 90,6 points pour le trafic réactif, soit une amélioration de 10 fois par rapport aux recherches précédentes.

Takeaways, Limitations

•

Takeaways:

◦

Nous améliorons considérablement l’évolutivité du PPO en utilisant une fonction simple de récompense d’achèvement de chemin.

◦

Nous présentons une méthode permettant d’apprendre efficacement de grands ensembles de données.

◦

Nous avons obtenu des performances SOTA sur les benchmarks CARLA et nuPlan.

◦

Nous proposons une fonction de récompense plus simple et plus efficace que les fonctions de récompense complexes existantes.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est applicable à tous les environnements de conduite autonome.

◦

La simplification de la fonction de récompense peut entraîner une dégradation des performances dans certaines situations.

◦

ÉTant donné que les résultats de l’expérience ont été obtenus en utilisant des nœuds à 8 GPU, les performances dans des environnements avec moins de GPU n’ont pas été confirmées.

Voir le PDF

Made with Slashpage