Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CMPhysBench : une référence pour l'évaluation des grands modèles de langage en physique de la matière condensée

Ada-TransGNN : un modèle de prédiction de la qualité de l'air basé sur des réseaux convolutifs de graphes adaptatifs

Désapprendre comme ablation : vers une référence falsifiable pour la découverte scientifique générative

Modélisation cohérente des adversaires statiques dans les jeux à information imparfaite

Détection de valeurs aberrantes dans une botte de foin : détection d'anomalies pour les scènes de nuages de points de grande taille

IA agentique pour les logiciels : réflexions de la communauté du génie logiciel

Attention à l'écart (linguistique) : vers une exploration des limites numériques et interlingues des LVLM

Briser le goulot d'étranglement de l'exploration : Apprentissage par renforcement basé sur des rubriques pour le raisonnement général du LLM

Rêver de discuter : apprentissage par renforcement basé sur un modèle pour les dialogues avec modélisation des croyances des utilisateurs

Une enquête sur les menaces contre les systèmes d'authentification vocale et anti-usurpation d'identité

Intelligence artificielle générative et agents dans la recherche et l'enseignement

CALR : Décomposition adaptative corrective de bas rang pour une compression efficace de la couche de modèle de langage de grande taille

Analyse comparative des algorithmes de planification de trajectoire de drone pour une navigation efficace dans les environnements urbains 3D

Récupération de commentaires améliorés via un livre d'erreurs neuronales contextuel

De la confiance à l'effondrement de la robustesse factuelle du LLM

Vecteurs et gradients de tâches

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

DLLMQuant : quantification de grands modèles de langage basés sur la diffusion

LLM - Autoencodeurs linéaires améliorés pour les recommandations

Exploiter le GNN pour améliorer la méthode MEF dans la prédiction de l'ENSO

Traitement facial guidé par l'incertitude pour une transformation faciale sensible à l'occlusion

Le nouveau venu en classe : Exploration des perceptions des élèves à l'égard des assistants de codage IA

Cadre basé sur un modèle de langage volumineux pour la détection explicable des cyberattaques dans les systèmes de contrôle de génération automatique

SKA-Bench : un outil de référence précis pour évaluer la compréhension structurée des connaissances des LLM

Modèles linguistiques de l'Apple Intelligence Foundation : rapport technique 2025

SE-VLN : un cadre de navigation vision-langage auto-évolutif basé sur des modèles de langage multimodaux de grande taille

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Krul : Restauration d'état efficace pour les conversations multitours avec partage KV inter-couches dynamique

ÉClairage de scène guidé par l'altitude solaire

Un système agentique pour le diagnostic des maladies rares avec un raisonnement traçable

Inférence spectre-structure et structure-spectre à travers le tableau périodique

UAD : Distillation d'affordance non supervisée pour généralisation en manipulation robotique

Débat pour détecter : reformuler la détection de la désinformation comme un débat réel avec de grands modèles linguistiques

EVM-Fusion : une architecture Mamba explicable avec fusion algorithmique neuronale

RePPL : recalibrage de la perplexité par l'incertitude dans la propagation sémantique et la génération de langage pour la détection d'hallucinations explicables par assurance qualité

Revisiter SSL pour la détection d'événements sonores : fusion complémentaire et post-traitement adaptatif

Interprétabilité guidée par les concepts via le découpage neuronal

Dévoiler le paysage du déploiement du LLM dans la nature : une étude empirique

Un RAG graphique basé sur une ontologie pour les normes juridiques : une approche hiérarchique, temporelle et déterministe

Jailbreak au niveau du pré-remplissage : une analyse des risques en boîte noire des grands modèles de langage

Modèle CLIP vidéo pour l'interprétation de l'échocardiographie multi-vues

Un modèle hybride de transformateur CNN entièrement convolutif pour la détection de maladies intrinsèquement interprétables à partir d'images du fond d'œil de la rétine

M$^2$IV : Vers un apprentissage multimodal en contexte efficace et précis via l'ingénierie des représentations

Apprentissage modulé par la récompense basé sur le bruit

Réglage plus rapide et efficace des paramètres grâce à la réduction de la redondance des jetons

UniGenX : un modèle de fondation génératif unifié qui associe séquence, structure et fonction pour accélérer la conception scientifique des protéines, des molécules et des matériaux

ÉValuation collaborative de textes deepfakes avec des systèmes de dialogue favorisant la délibération

Les grands modèles de langage généralisent mal la longueur des options, les types de problèmes et les remplacements de noms non pertinents

TableTalk : Échafaudage du développement de feuilles de calcul avec un agent de langage

StagFormer : Décodage de transformateur à décalage temporel pour l'exécution de couches en parallèle

Formation de réseaux neuronaux à sécurité prouvée grâce à l'analyse d'accessibilité des zonotopes hybrides

Tests d'intrusion assistés par intelligence artificielle générative : comparaison entre Claude Opus, GPT-4 et Copilot

Coordination multi-agents sécurisée via l'exploration entropique

Formation TL : un cadre basé sur les fonctionnalités des tâches pour la formation de grands modèles linguistiques à l'utilisation d'outils

Dimensions culturelles de la perception de l'IA : cartographie des attentes, des risques, des avantages, des compromis et de la valeur en Allemagne et en Chine

CAD-Assistant : des VLLM enrichis d'outils comme solveurs de tâches CAO génériques

Les écarts de perception des risques, des avantages et de la valeur entre les experts et le public remettent en question l'IA socialement acceptée

Planification hiérarchique orientée objet POMDP pour la réorganisation des objets

Des intentions aux conversations : générer des dialogues axés sur l'intention grâce à l'apprentissage contrastif pour la classification multi-tours

Apprentissage par renforcement sécurisé via le modèle de confidentialité Shuffle

Surmonter le changement d'étiquette grâce à l'apprentissage fédéré axé sur les cibles

Analyse comparative des explications XAI avec des évaluations orientées vers l'humain

HonestCyberEval : une analyse comparative des cyberrisques liés à l'IA pour l'exploitation automatisée des logiciels

Exploiter les chemins multifacettes pour l'apprentissage de la représentation de graphes hétérogènes

GeNet : un copilote multimodal basé sur LLM pour la topologie et la configuration des réseaux

ChatGPT ne fait pas confiance aux fans des Chargers : la sensibilité aux garde-fous en contexte

Ego-Foresight : Apprentissage auto-supervisé des représentations conscientes des agents pour une meilleure apprentissage par renforcement

Exploration de la robustesse des modèles linguistiques pour la réponse aux questions tabulaires via l'analyse de l'attention

Apprentissage du comté à partir des pixels : prédiction du rendement du maïs avec apprentissage multi-instances pondéré par l'attention

L'augmentation de la mémoire est tout ce dont vous avez besoin pour la restauration d'image

Repenser les changements de distribution : analyse empirique et modélisation inductive pour les données tabulaires

DiffBlender : modèles de diffusion texte-image multimodaux composables et polyvalents

Au-delà des modèles discriminants : sur la robustesse des ensembles de règles de décision

Apprentissage profond bayésien pour la segmentation en vue d'un atterrissage planétaire autonome et sécurisé

ST-Raptor : Question-réponse semi-structurée basée sur LLM

Route-and-Execute : correspondance de modèle-carte vérifiable et déploiement au niveau de la spécialité

Agents titulaires d'un LLM pour la cartographie du paysage concurrentiel dans le cadre de la due diligence relative aux actifs pharmaceutiques

Réponse et évaluation rapide pour prévenir les relations parasociales avec les chatbots

Manœuvres tenant compte du profil : un système multi-agents dynamique pour une résolution robuste des problèmes GAIA par AWorld

Les LLM multi-agents, défenseurs de l'éthique des systèmes basés sur l'IA

Sélection de voisins guidée par les caractéristiques pour l'évaluation non experte des prédictions du modèle

Architecture de la collaboration clinique : systèmes de raisonnement multi-agents pour l'assurance qualité médicale multimodale

MRAG : Élucider l'espace de conception de la génération augmentée par récupération multimodale

Puzzles : de la vision à la compréhension et au raisonnement dans les modèles vision-langage

L'influence de la sophistication agentique inspirée par l'humain dans les raisonnements stratégiques axés sur le LLM

YuLan-OneSim : vers la prochaine génération de simulateurs sociaux avec de grands modèles linguistiques

Consensus en mouvement : un cas de rationalité dynamique de l'apprentissage séquentiel dans l'agrégation de probabilités

Les grands modèles de langage peuvent-ils servir d’ensemble pour les multi-GNN ?

Planification itérative pessimiste avec RNN pour des POMDP robustes

Apprentissage par renforcement sécurisé dans les environnements de boîte noire via le blindage adaptatif

Intégration d'un modèle de langage étendu pour une meilleure découverte causale

Une enquête sur la découverte causale : théorie et pratique

Interfaces génératives pour les modèles de langage

Interpolation des identités des locuteurs dans l'espace d'intégration pour l'expansion des données

Rapport technique VibeVoice

LSD-3D : Génération de scènes de conduite 3D à grande échelle avec mise à la terre géométrique

Comprendre le raisonnement intégré aux outils

Les émotions comme représentations ordinales conscientes de l'ambiguïté

Vérification du modèle en temps réel pour la planification réactive des robots en boucle fermée

Formation TL : un cadre basé sur les fonctionnalités des tâches pour la formation de grands modèles linguistiques à l'utilisation d'outils

Created by

Haebom

Auteur

Junjie Ye, Yilong Wu, Sixian Li, Yuming Yang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, Zhengyin Du

Contour

Cet article porte sur l'amélioration des performances des modèles de langage à grande échelle (MLH) qui utilisent des outils pour interagir avec leur environnement. Les approches existantes de réglage fin par apprentissage supervisé (SFT) reposent sur de grands ensembles de données et souffrent de la limitation liée à la négligence des caractéristiques des tâches. Pour y remédier, les chercheurs ont analysé trois LLM existants et ont constaté que les données d'apprentissage interfèrent avec le comportement d'utilisation des outils, que l'importance des jetons est inégalement répartie et que les erreurs d'invocation des outils sont concentrées dans des catégories spécifiques. Sur la base de ces résultats, les chercheurs proposent TL-Training, un cadre basé sur les caractéristiques des tâches. TL-Training atténue les effets des données d'apprentissage sous-optimales, ajuste dynamiquement la pondération des jetons pour prioriser les jetons importants dans les SFT et optimise un mécanisme de récompense amélioré adapté aux catégories d'erreurs grâce à l'optimisation des politiques proximales. L'entraînement de CodeLLaMA-2-7B et son évaluation sur quatre jeux de tests open source démontrent que, même avec un jeu de données d'entraînement limité (1 217 jetons), TL-Training atteint des performances d'utilisation des outils comparables, voire supérieures, à celles des LLM open source et fermés. De plus, il fournit un paradigme évolutif et efficace pour l'entraînement à l'utilisation des outils dans les LLM, améliorant ainsi la robustesse dans les environnements bruyants et les performances générales des tâches. Le code et les données sont disponibles à l' adresse https://github.com/Junjie-Ye/TL-Training .

GitHub - Junjie-Ye/TL-Training: [EMNLP 2025] TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use

[EMNLP 2025] TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use - Junjie-Ye/TL-Training

github.com

Takeaways, Limitations_

•

Takeaways:

◦

Nous présentons un cadre de formation efficace (TL-Training) qui permet d'obtenir d'excellentes performances d'utilisation des outils même avec des données de formation limitées.

◦

Robustesse améliorée dans les environnements bruyants et performances générales des tâches améliorées.

◦

Présentation d'un paradigme évolutif et efficace pour la formation à l'utilisation des outils en LLM.

◦

Analyser la méthode SFT existante Limitations et suggérer des mesures d’amélioration.

•

Limitations:

◦

Les performances de TL-Training peuvent être limitées à des LLM et à des ensembles de données spécifiques.

◦

La vérification des performances de généralisation est nécessaire pour divers outils et types de tâches.

◦

Des études expérimentales et comparatives plus approfondies sont nécessaires pour vérifier les performances et la polyvalence de la généralisation.

◦

La petite taille des données de formation utilisées nécessite des recherches supplémentaires sur la généralisabilité dans des scénarios d’application à grande échelle dans le monde réel.

Voir le PDF

Made with Slashpage