Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PRÉLUDE : Un référentiel conçu pour exiger une compréhension et un raisonnement globaux sur de longs contextes

Prédicateur : Système agentique papier-vidéo

Hallucination vs interprétation : repenser l'exactitude et la précision dans l'extraction de données assistée par l'IA pour la synthèse des connaissances

Prévisions météorologiques décentralisées via l'apprentissage automatique distribué et la validation de modèles basés sur la blockchain

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

Traduction personnalisée de caractéristiques pour la reconnaissance d'expressions : une méthode efficace d'adaptation de domaine sans source

Un cadre neurosymbolique pour la détection interprétable des attaques cognitives en réalité augmentée

IAD-R1 : Renforcer la cohérence du raisonnement dans la détection des anomalies industrielles

EvaDrive : Optimisation évolutive des politiques conflictuelles pour la conduite autonome de bout en bout

Comprendre théoriquement l'apprentissage contextuel basé sur les transformateurs pour optimiser le CSMA

ASPD : Déverrouiller le décodage série-parallèle adaptatif en explorant le parallélisme intrinsèque dans les LLM

BiasGym : Les biais fantastiques du LLM et comment les trouver (et les supprimer)

Yan : Génération de vidéos interactives fondamentales

M3-Net : un modèle MLP rentable et sans graphique pour la prévision du trafic

Réseaux corporels sans fil adaptatifs 6G pilotés par LLM : étude et cadre

L'illusion du progrès : réévaluation de la détection des hallucinations dans les masters de droit

Comprendre la dynamique de la capacité du modèle dans l'apprentissage continu

WeChat-YATT : un entraîneur RLHF simple, évolutif et équilibré

Génération de titres personnalisés améliorée grâce à la suppression des faux intérêts issus des commentaires implicites

Apprentissage dynamique du programme d'études tenant compte de la difficulté pour une reconnaissance multimodale robuste des émotions avec modalités manquantes

ÉChos de l'automatisation : l'utilisation croissante des LLM dans la rédaction de l'actualité

SIFThinker : mise au point d'images spatialement conscientes pour le raisonnement visuel

Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données

Vers une IA agentique incarnée : revue et classification de l'autonomie et de l'interaction des robots pilotés par LLM et VLM

Position : Le modèle actuel de conférence sur l'IA est intenable ! Diagnostic de la crise des conférences centralisées sur l'IA

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Modèles de langage auto-questionnés

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

Oranits : attribution de missions et déchargement de tâches dans un ITS basé sur Open RAN à l'aide de l'apprentissage métaheuristique et du renforcement profond

DeepWriter : un assistant d'écriture multimodal basé sur des faits et une base de connaissances hors ligne

Sélection de coresets proportionnelle à la classe pour les données séparables par difficulté

Réponse aux questions spatiales sur l'entrepôt avec LLM Agent

CodeJudgeBench : analyse comparative des compétences LLM en tant que juge pour les tâches de codage

AmpLyze : un modèle d'apprentissage profond pour prédire la concentration hémolytique

EXAONE Path 2.0 : Modèle de base de pathologie avec supervision de bout en bout

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Encodeur automatique de masque graphique sensible aux écarts

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Comparaison quantitative des techniques de réglage fin pour les modèles de diffusion latente pré-entraînés dans la génération d'images SAR invisibles

PromptTSS : une approche basée sur l'invite pour la segmentation interactive de séries chronologiques multigranulaires

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

Les attaques rapides révèlent une suppression superficielle des connaissances dans les méthodes de désapprentissage

ÉLagage des données par maximisation de l'information

CCL-LGS : Apprentissage par code contrastif pour l'éclaboussure gaussienne de langage 3D

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

L'optimisation quantique est-elle prête ? Vers la compression des réseaux neuronaux grâce au calcul quantique adiabatique

Démêler le TCHAD itératif

FreeKV : Optimisation de la récupération du cache KV pour une inférence LLM efficace

LaDi-WM : un modèle mondial basé sur la diffusion latente pour la manipulation prédictive

Rotation groupée et organisée : optimisation de la transformation de rotation pour la quantification gratuite

Bandits multi-armés à budget adaptatif pour l'IoT avec contraintes de ressources dynamiques

Transformateurs de vision dans l'agriculture de précision : une étude approfondie

Prévisions de séries chronologiques orientées vers les objectifs : conception du cadre de base

CAPTURe : Évaluation du raisonnement spatial dans les modèles de langage visuel via le comptage d'objets occultés

FinSage : un système RAG multi-aspects pour les réponses aux questions sur les déclarations financières

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Hyperflux : l'élagage révèle l'importance des poids

ToolACE-R : formation itérative et perfectionnement adaptatif pour l'apprentissage des outils

UniOcc : une référence unifiée pour la prévision et la prédiction de l'occupation en conduite autonome

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Apprentissage continu pour de multiples modalités

Faire progresser MAPF vers le monde réel : un banc d'essai réaliste multi-agents évolutif (SMART)

Fusion de LED : atténuation des conflits sécurité-utilité lors de la fusion de modèles avec localisation-élection-disjointe

Amélioration de la généralisation inter-problèmes dans un solveur combinatoire neuronal basé sur la diffusion via l'adaptation du temps d'inférence

Partage rythmique : un paradigme bio-inspiré pour l'apprentissage adaptatif à zéro coup dans les réseaux neuronaux

Mesurer la diversité dans les ensembles de données synthétiques

Modélisation de la rétroaction différée avec fonctions d'influence

Roulette de déploiement : une approche d'inférence probabiliste pour la mise à l'échelle temporelle des LLM à l'aide de méthodes de Monte-Carlo basées sur les particules

CLoQ : Amélioration du réglage fin des LLM quantifiés via l'initialisation LoRA calibrée

Fleurs-SLU : une référence massivement multilingue pour la compréhension du langage parlé

EDO neuronales interprétables pour la découverte de réseaux de régulation génétique en cas de perturbations

Un transformateur léger avec attention croisée en phase uniquement pour une authentification biométrique invariante en fonction de l'éclairage

Comprendre les modèles de vision basés sur les transformateurs grâce à l'inversion

INSIGHT : Analyse d'images médicales explicables et faiblement supervisées

Visual SLAMMOT prenant en compte plusieurs modèles de mouvement

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Optimisation multi-objectifs dans l'exploration de l'espace de conception du processeur : l'attention est tout ce dont vous avez besoin

DiRW : apprentissage de digraphes sensible au chemin pour l'hétérophilie

Diversification des comportements politiques grâce à la curiosité comportementale extrinsèque

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Les réseaux neuronaux généralisent sur des données de faible complexité

Tests de cohérence basés sur les connaissances des grands modèles linguistiques

Algorithme d'ensemble de sécurité implicite pour un apprentissage par renforcement prouvé comme sûr

Un modèle explicable basé sur un transformateur pour la détection des e-mails d'hameçonnage : une approche basée sur un modèle de langage étendu

Réduction des coûts de communication pour le comptage de sous-graphes sous confidentialité différentielle locale via des fonctions de hachage

Erreurs de calcul et de raisonnement mathématiques par grands modèles de langage

OpenCUA : fondements ouverts pour les agents informatiques

Rapport technique Compass-Thinker-7B

TextQuests : Dans quelle mesure les LLM sont-ils performants en matière de jeux vidéo textuels ?

Sur la définition de l'intelligence

Au-delà de la précision : comment la sensibilité métacognitive de l'IA améliore la prise de décision assistée par l'IA

LAPO : internalisation de l'efficacité du raisonnement via l'optimisation des politiques adaptatives à la longueur

FAIRGAME : un cadre pour la reconnaissance des biais des agents IA utilisant la théorie des jeux

MedRep : Représentation de concepts médicaux pour les modèles de base des dossiers médicaux électroniques généraux

Un optimiseur à clé aléatoire pour l'optimisation combinatoire

Apprenants fédérés en formation croisée pour une généralisation robuste sous hétérogénéité des données

Exploiter les grands modèles linguistiques pour les jugements pertinents dans la recherche de dossiers juridiques

Robo-Instruct : alignement des instructions augmenté par simulateur pour affiner les LLM de code

Created by

Haebom

Auteur

Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas

Contour

Cet article se concentre sur les grands modèles de langage (LLM), des codes qui ont montré des résultats prometteurs dans la traduction de tâches en langage naturel en programmes pour robots de service. Si le réglage fin de petits LLM spécialisés est intéressant, la collecte d'un ensemble de données de paires tâche-programme spécifiques à chaque robot est longue et coûteuse. Si des méthodes comme SELF-INSTRUCT et EVOL-INSTRUCT peuvent générer de nouvelles tâches à partir de quelques exemples, elles ne peuvent pas fournir de programmes correspondants respectant correctement le monde physique et les contraintes du robot grâce à l'interface de programmation fournie. L'utilisation d'un simulateur est une solution potentielle naturelle pour vérifier ces contraintes, mais la création d'un environnement de simulation capable de gérer des tâches arbitraires et les objets et emplacements requis est complexe. Pour relever ce défi, cet article propose ROBO-INSTRUCT. ROBO-INSTRUCT déduit de manière opportuniste les propriétés des entités pendant l'exécution du programme et applique ces contraintes en fonction de la manière dont les entités sont utilisées dans le programme de la tâche, synthétisant ainsi à la volée un environnement de simulation spécifique à la tâche. De plus, ROBO-INSTRUCT intègre une procédure de post-traitement assistée par LLM pour améliorer l'alignement avec le programme du robot. Nous démontrons l’efficacité de ROBO-INSTRUCT sur plusieurs LLM, montrant que le modèle affiné surpasse toutes les méthodes de base et égale ou dépasse même les performances de plusieurs modèles propriétaires plus grands.

Takeaways, Limitations

•

Takeaways:

◦

Une méthode efficace pour relever les défis de la collecte d’ensembles de données de paires tâche-programme est présentée.

◦

Affiner efficacement les petits LLM spécialisés pour atteindre des performances compétitives avec des modèles à grande échelle.

◦

Gérez efficacement les contraintes physiques grâce à la synthèse d'environnement de simulation en temps réel.

◦

Alignement amélioré avec les programmes robotiques grâce à des procédures de post-traitement basées sur LLM.

•

Limitations:

◦

Les performances de ROBO-INSTRUCT peuvent dépendre de la précision du LLM et du simulateur utilisés.

◦

Il peut y avoir des limites à la gestion parfaite de toutes les tâches, objets et emplacements arbitraires.

◦

Une évaluation complémentaire de la capacité à gérer des tâches complexes ou des situations exceptionnelles est requise.

◦

La création et la maintenance d’un environnement de simulation peuvent être coûteuses et prendre du temps.

Voir le PDF

Made with Slashpage