[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Code latent discret compositionnel pour modèles de diffusion productive haute fidélité

Code MERA : un cadre unifié pour évaluer la génération de code entre les tâches

Réglage fin au niveau du site avec congélation progressive des couches : vers une prédiction fiable de la dysplasie bronchopulmonaire à partir des radiographies thoraciques du premier jour chez les nourrissons extrêmement prématurés

Une feuille de route pour la recherche en robotique adaptée au climat

L'équité ne suffit pas : audit des compétences et des biais intersectionnels dans la sélection des CV par l'IA

MMOne : Représentation de plusieurs modalités dans une même scène

SWE-MERA : une référence dynamique pour l'évaluation agentique de grands modèles de langage dans les tâches d'ingénierie logicielle

CodeAssistBench (CAB) : Ensemble de données et analyse comparative pour l'assistance au code multi-tours basée sur le chat

Couture de modèles de fondation en modalité (presque) libre

Une méthode de segmentation des tumeurs cérébrales basée sur CLIP et 3D U-Net avec guidage sémantique intermodal et fusion de caractéristiques multi-niveaux

KEN : Réseau d'augmentation des connaissances et de guidage des émotions pour la détection multimodale de fausses nouvelles

THOR : Heuristiques de transformateur pour la récupération à la demande

SEALGuard : protection des conversations multilingues en langues d'Asie du Sud-Est pour les systèmes logiciels LLM

KeyRe-ID : réidentification de personne guidée par points clés à l'aide d'une représentation consciente des parties dans les vidéos

Les perturbations rapides révèlent des biais semblables à ceux des humains dans les réponses aux enquêtes LLM

Gemini 2.5 : repousser les limites grâce au raisonnement avancé, à la multimodalité, au contexte long et aux capacités agentiques de nouvelle génération

Téléopération bilatérale rapide et apprentissage par imitation à l'aide d'un contrôle de force sans capteur via un modèle dynamique précis

Distillation d'ensembles de données génératives spécifiques à une tâche avec échantillonnage guidé par la difficulté

VIDÉO : Décomposition visuelle et interactive, exécution et évaluation de l'analyse de texte avec des agents intelligents

ReCode : Mise à jour des connaissances sur l'API de code grâce à l'apprentissage par renforcement

Découverte de concepts discrets inter-couches pour l'interprétation des modèles de langage

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

MEM1 : Apprendre à associer mémoire et raisonnement pour des agents efficaces à long terme

Formation basée sur la population à fréquences multiples

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Affiner un SLM ou susciter un LLM ? Le cas de la génération de workflows low-code.

ContextQFormer : une nouvelle méthode de modélisation contextuelle pour les conversations multimodales à plusieurs tours

La portabilité des performances du GPU nécessite un réglage automatique

Génération de données synthétiques via des augmentations pour une meilleure ressemblance faciale dans DreamBooth et InstantID

Protocole Coral : une infrastructure ouverte connectant l'Internet des agents

MAC-Tuning : Raisonnement multi-compositionnel LLM avec une meilleure connaissance des limites des connaissances

Apprentissage fédéré : une enquête sur l'intelligence collaborative préservant la confidentialité

ConTextual : Améliorer la synthèse des textes cliniques dans les LLM grâce au filtrage des jetons préservant le contexte et aux graphes de connaissances

Quantification des circuits de tâches : Exploiter la localisation et l'interprétabilité des connaissances pour la compression

JailDAM : Détection de jailbreak avec mémoire adaptative pour le modèle vision-langage

Réseaux de neurones quantiques KP

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Réseau d'opérateurs profonds à haut rendement en données pour les écoulements instables : une approche multi-fidélité avec sous-échantillonnage guidé par la physique

Apprentissage des modèles universels de mobilité humaine avec un modèle de base pour la fusion de données interdomaines

GeoFlow-SLAM : un SLAM robuste et étroitement couplé combinant la fusion de l'odométrie inertielle et à pattes RGBD pour la robotique dynamique à pattes

Un cadre multi-étapes avec raisonnement guidé par la taxonomie pour la classification des professions à l'aide de grands modèles linguistiques

ÉLagage des nœuds multi-vues pour une représentation graphique précise

V-Max : un cadre d'apprentissage par renforcement pour la conduite autonome

Transformation interprétable et analyse des chronologies par l'apprentissage par la surprisabilité

Indice d'évaluation international de la gouvernance de l'IA (Indice AGILE) 2024

UPCORE : Sélection de coresets préservant l'utilité pour un désapprentissage équilibré

Améliorer les modèles Transformer World pour un RL efficace en termes de données

LLM-RecG : un cadre de recommandation séquentielle à zéro coup tenant compte des biais sémantiques

SIDA : adaptation dynamique du domaine SInkhorn pour la classification d'images avec des réseaux neuronaux équivariants

Détermination des décalages photométriques vers le rouge des galaxies à l'aide de réseaux antagonistes génératifs conditionnels (CGAN)

Analyse médico-légale de la parole : vers l'établissement et l'analyse d'un ensemble complet de données synthétiques sur la parole

MRGen : moteur de données de segmentation pour les modalités d'IRM sous-représentées

IOPO : Donner aux LLM les moyens de suivre des instructions complexes grâce à l'optimisation des préférences d'entrée-sortie

Récupération hors distribution avec politique inverse de point clé centrée sur l'objet pour l'apprentissage par imitation visuomotrice

Ensemble de données résultant de l'étude utilisateur sur la compréhensibilité des algorithmes d'IA explicables

ÉValuation unifiée des hallucinations au niveau du triplet pour les grands modèles vision-langage

LoRA Done RITE : Équilibrage robuste des transformations invariantes pour l'optimisation LoRA

Identification des groupes de tâches pour l'apprentissage multitâche à l'aide d'informations utilisables ponctuellement

DeFine : Prise de décision par raisonnement analogique sur profils factoriels

Classification comparative des sous-genres pour la musique de danse grand public

Risques liés à l'ignorance de la propagation de l'incertitude dans les pipelines de sécurité augmentés par l'IA

MedPix 2.0 : un ensemble complet de données biomédicales multimodales pour les applications d'IA avancées avec récupération, génération augmentée et graphes de connaissances

Exploiter la superposition quantique pour déduire le comportement dynamique d'un modèle de signalisation de réseau neuronal spatio-temporel

Limiter l'erreur de pire classe : une approche par boosting

TBDetector : détecteur basé sur un transformateur pour les menaces persistantes avancées avec graphique de provenance

Systèmes d'apprentissage automatique : une étude du point de vue des données

Objectif : Vers un cadre multi-agents entièrement autonome

SmartThinker : Apprendre à compresser et à préserver le raisonnement grâce au contrôle de la longueur par étape

Ready Jurist One : Analyse comparative des agents linguistiques pour l'intelligence juridique dans des environnements dynamiques

NTRL : Génération de rencontres par apprentissage par renforcement pour un ajustement dynamique de la difficulté dans Donjons et Dragons

Juger avec plusieurs esprits : Plus de perspectives signifie-t-il moins de préjugés ? Sur l'amplification et la résistance des biais dans le LLM-as-Judge multi-agents

ActionStudio : un framework léger pour les données et la formation de modèles d'action de grande envergure

BEARCUBS : une référence pour les agents Web utilisant des ordinateurs

Démystifier la planification MuZero : interpréter le modèle appris

LLM - Interactions utilisateur-élément améliorées : Exploiter les informations Edge pour des recommandations optimisées

VidéoITG : Compréhension vidéo multimodale avec ancrage temporel instruit

VisionThink : modèle de langage visuel intelligent et efficace via l'apprentissage par renforcement

Déséquilibre dans l'équilibre : équilibrage des concepts en ligne dans les modèles de génération

Pilotage de politiques latentes avec des modèles mondiaux pré-entraînés et indépendants de l'incarnation

La formation à la vision et au langage aide à déployer les connaissances taxonomiques, mais ne les modifie pas fondamentalement

Réexamen de la fiabilité dans le benchmark d'estimation de pose basé sur le raisonnement

AbGen : Évaluation de grands modèles linguistiques dans la conception et l'évaluation d'études d'ablation pour la recherche scientifique

Vers une vérification formelle du code généré par LLM à partir d'invites en langage naturel

ÉValuation des algorithmes d'apprentissage par renforcement pour la navigation chez des quadrupèdes robotisés simulés : une étude comparative inspirée du comportement des chiens guides

Aperçu de TalentCLEF 2025 : Intelligence des compétences et des intitulés de poste pour la gestion du capital humain

QuestA : Développer la capacité de raisonnement dans les LLM grâce à l'augmentation des questions

Voxtral

Noyau de fusion pour l'optimisation bayésienne sur l'espace de permutation

Adaptation efficace d'un transformateur de vision pré-entraîné, soutenue par une stratégie de réglage fin approximativement orthogonale

Automatisation du pilotage pour des modèles linguistiques multimodaux sûrs et de grande taille

HATS : Ensemble de tests d'analogie hindi pour l'évaluation du raisonnement dans les grands modèles linguistiques

VITA : Politique de mise en correspondance des flux de la vision à l'action

$S^2M^2$ : Modèle de correspondance stéréo évolutif pour une estimation fiable de la profondeur

Synthétiser la réalité : exploiter la plateforme générative à IA Midparcours pour la détection des travailleurs du bâtiment

Aligner les humains et les robots grâce à l'apprentissage par renforcement à partir de commentaires humains implicites

SHIELD : un apprentissage intégré sécurisé et hautement amélioré pour une détection robuste des deepfakes contre les attaques adverses

Injection rapide 2.0 : menaces d'IA hybrides

Orbis : surmonter les défis de la prévision à long terme dans les modèles mondiaux de conduite

L'apprentissage par renforcement inverse rencontre le modèle de langage à grande échelle après la formation : bases, avancées et opportunités

MEM1 : Apprendre à associer mémoire et raisonnement pour des agents efficaces à long terme

Created by

Haebom

Auteur

Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang

Contour

Cet article aborde les limites des agents langagiers modernes qui récupèrent des informations externes, s'adaptent aux observations et répondent à des questions interdépendantes dans des interactions à long terme et à plusieurs tours. Les systèmes LLM existants reposent sur une invite contextuelle complète, qui ajoute tous les tours passés, quelle que soit leur pertinence, ce qui entraîne une croissance infinie de la mémoire, une augmentation des coûts de calcul et de faibles performances d'inférence pour les longueurs d'entrée hors de la distribution. En réponse, cet article propose MEM1, un framework d'apprentissage par renforcement de bout en bout capable d'effectuer des tâches à long terme et à plusieurs tours en utilisant une mémoire constante. MEM1 met à jour un état interne partagé compressé qui prend en charge l'intégration et l'inférence de la mémoire à chaque tour, intégrant les nouvelles observations de l'environnement aux mémoires précédentes tout en supprimant stratégiquement les informations non pertinentes ou redondantes. De plus, nous proposons une méthode simple, mais efficace et évolutive pour soutenir l'apprentissage dans des environnements plus réalistes et constructifs en composant des ensembles de données existants en séquences de tâches arbitrairement complexes. Des expériences menées dans trois domaines, dont l'assurance qualité de recherche interne, l'assurance qualité web en domaine ouvert et les achats web multi-sauts, démontrent que MEM1-7B améliore les performances de 3,5 fois par rapport à Qwen2.5-14B-Instruct sur une tâche d'assurance qualité multi-sauts à 16 objectifs, tout en réduisant l'utilisation de la mémoire de 3,7 fois, et se généralise bien au-delà de la période d'apprentissage. Nos résultats démontrent le potentiel de l'intégration mémoire basée sur l'inférence comme alternative évolutive aux solutions existantes pour l'entraînement d'agents interagissant à long terme, optimisant ainsi l'efficacité et les performances.

Takeaways, Limitations_

•

Takeaways:

◦

Nous présentons la possibilité d'améliorer simultanément l'efficacité et les performances des agents interactifs multi-tours à long terme grâce à l'intégration de la mémoire basée sur l'inférence.

◦

MEM1 résout efficacement le problème de limitation de mémoire du LLM existant et atteint d'excellentes performances même dans des environnements de mémoire limitée.

◦

Nous vérifions la capacité de généralisation de MEM1 à travers des expériences dans divers domaines.

◦

Nous présentons une méthode permettant de construire un environnement multi-tours évolutif à l’aide d’ensembles de données existants.

•

Limitations:

◦

Manque d'explication détaillée de la stratégie de mise à jour de l'état interne de MEM1 et des critères de suppression des informations.

◦

En raison du biais dans l’évaluation des performances sur des ensembles de données et des tâches spécifiques, des recherches supplémentaires sont nécessaires sur les performances de généralisation dans divers environnements.

◦

Il est nécessaire d’élargir les environnements expérimentaux pour inclure des interactions plus complexes et plus diverses.

◦

Des recherches supplémentaires sont nécessaires pour optimiser les stratégies de gestion de la mémoire.

Voir le PDF

Made with Slashpage