[공지사항]을 빙자한 안부와 근황

Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Code latent discret compositionnel pour modèles de diffusion productive haute fidélité

Code MERA : un cadre unifié pour évaluer la génération de code entre les tâches

Réglage fin au niveau du site avec congélation progressive des couches : vers une prédiction fiable de la dysplasie bronchopulmonaire à partir des radiographies thoraciques du premier jour chez les nourrissons extrêmement prématurés

Une feuille de route pour la recherche en robotique adaptée au climat

L'équité ne suffit pas : audit des compétences et des biais intersectionnels dans la sélection des CV par l'IA

MMOne : Représentation de plusieurs modalités dans une même scène

SWE-MERA : une référence dynamique pour l'évaluation agentique de grands modèles de langage dans les tâches d'ingénierie logicielle

CodeAssistBench (CAB) : Ensemble de données et analyse comparative pour l'assistance au code multi-tours basée sur le chat

Couture de modèles de fondation en modalité (presque) libre

Une méthode de segmentation des tumeurs cérébrales basée sur CLIP et 3D U-Net avec guidage sémantique intermodal et fusion de caractéristiques multi-niveaux

KEN : Réseau d'augmentation des connaissances et de guidage des émotions pour la détection multimodale de fausses nouvelles

THOR : Heuristiques de transformateur pour la récupération à la demande

SEALGuard : protection des conversations multilingues en langues d'Asie du Sud-Est pour les systèmes logiciels LLM

KeyRe-ID : réidentification de personne guidée par points clés à l'aide d'une représentation consciente des parties dans les vidéos

Les perturbations rapides révèlent des biais semblables à ceux des humains dans les réponses aux enquêtes LLM

Gemini 2.5 : repousser les limites grâce au raisonnement avancé, à la multimodalité, au contexte long et aux capacités agentiques de nouvelle génération

Téléopération bilatérale rapide et apprentissage par imitation à l'aide d'un contrôle de force sans capteur via un modèle dynamique précis

Distillation d'ensembles de données génératives spécifiques à une tâche avec échantillonnage guidé par la difficulté

VIDÉO : Décomposition visuelle et interactive, exécution et évaluation de l'analyse de texte avec des agents intelligents

ReCode : Mise à jour des connaissances sur l'API de code grâce à l'apprentissage par renforcement

Découverte de concepts discrets inter-couches pour l'interprétation des modèles de langage

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

MEM1 : Apprendre à associer mémoire et raisonnement pour des agents efficaces à long terme

Formation basée sur la population à fréquences multiples

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Affiner un SLM ou susciter un LLM ? Le cas de la génération de workflows low-code.

ContextQFormer : une nouvelle méthode de modélisation contextuelle pour les conversations multimodales à plusieurs tours

La portabilité des performances du GPU nécessite un réglage automatique

Génération de données synthétiques via des augmentations pour une meilleure ressemblance faciale dans DreamBooth et InstantID

Protocole Coral : une infrastructure ouverte connectant l'Internet des agents

MAC-Tuning : Raisonnement multi-compositionnel LLM avec une meilleure connaissance des limites des connaissances

Apprentissage fédéré : une enquête sur l'intelligence collaborative préservant la confidentialité

ConTextual : Améliorer la synthèse des textes cliniques dans les LLM grâce au filtrage des jetons préservant le contexte et aux graphes de connaissances

Quantification des circuits de tâches : Exploiter la localisation et l'interprétabilité des connaissances pour la compression

JailDAM : Détection de jailbreak avec mémoire adaptative pour le modèle vision-langage

Réseaux de neurones quantiques KP

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Réseau d'opérateurs profonds à haut rendement en données pour les écoulements instables : une approche multi-fidélité avec sous-échantillonnage guidé par la physique

Apprentissage des modèles universels de mobilité humaine avec un modèle de base pour la fusion de données interdomaines

GeoFlow-SLAM : un SLAM robuste et étroitement couplé combinant la fusion de l'odométrie inertielle et à pattes RGBD pour la robotique dynamique à pattes

Un cadre multi-étapes avec raisonnement guidé par la taxonomie pour la classification des professions à l'aide de grands modèles linguistiques

ÉLagage des nœuds multi-vues pour une représentation graphique précise

V-Max : un cadre d'apprentissage par renforcement pour la conduite autonome

Transformation interprétable et analyse des chronologies par l'apprentissage par la surprisabilité

Indice d'évaluation international de la gouvernance de l'IA (Indice AGILE) 2024

UPCORE : Sélection de coresets préservant l'utilité pour un désapprentissage équilibré

Améliorer les modèles Transformer World pour un RL efficace en termes de données

LLM-RecG : un cadre de recommandation séquentielle à zéro coup tenant compte des biais sémantiques

SIDA : adaptation dynamique du domaine SInkhorn pour la classification d'images avec des réseaux neuronaux équivariants

Détermination des décalages photométriques vers le rouge des galaxies à l'aide de réseaux antagonistes génératifs conditionnels (CGAN)

Analyse médico-légale de la parole : vers l'établissement et l'analyse d'un ensemble complet de données synthétiques sur la parole

MRGen : moteur de données de segmentation pour les modalités d'IRM sous-représentées

IOPO : Donner aux LLM les moyens de suivre des instructions complexes grâce à l'optimisation des préférences d'entrée-sortie

Récupération hors distribution avec politique inverse de point clé centrée sur l'objet pour l'apprentissage par imitation visuomotrice

Ensemble de données résultant de l'étude utilisateur sur la compréhensibilité des algorithmes d'IA explicables

ÉValuation unifiée des hallucinations au niveau du triplet pour les grands modèles vision-langage

LoRA Done RITE : Équilibrage robuste des transformations invariantes pour l'optimisation LoRA

Identification des groupes de tâches pour l'apprentissage multitâche à l'aide d'informations utilisables ponctuellement

DeFine : Prise de décision par raisonnement analogique sur profils factoriels

Classification comparative des sous-genres pour la musique de danse grand public

Risques liés à l'ignorance de la propagation de l'incertitude dans les pipelines de sécurité augmentés par l'IA

MedPix 2.0 : un ensemble complet de données biomédicales multimodales pour les applications d'IA avancées avec récupération, génération augmentée et graphes de connaissances

Exploiter la superposition quantique pour déduire le comportement dynamique d'un modèle de signalisation de réseau neuronal spatio-temporel

Limiter l'erreur de pire classe : une approche par boosting

TBDetector : détecteur basé sur un transformateur pour les menaces persistantes avancées avec graphique de provenance

Systèmes d'apprentissage automatique : une étude du point de vue des données

Objectif : Vers un cadre multi-agents entièrement autonome

SmartThinker : Apprendre à compresser et à préserver le raisonnement grâce au contrôle de la longueur par étape

Ready Jurist One : Analyse comparative des agents linguistiques pour l'intelligence juridique dans des environnements dynamiques

NTRL : Génération de rencontres par apprentissage par renforcement pour un ajustement dynamique de la difficulté dans Donjons et Dragons

Juger avec plusieurs esprits : Plus de perspectives signifie-t-il moins de préjugés ? Sur l'amplification et la résistance des biais dans le LLM-as-Judge multi-agents

ActionStudio : un framework léger pour les données et la formation de modèles d'action de grande envergure

BEARCUBS : une référence pour les agents Web utilisant des ordinateurs

Démystifier la planification MuZero : interpréter le modèle appris

LLM - Interactions utilisateur-élément améliorées : Exploiter les informations Edge pour des recommandations optimisées

VidéoITG : Compréhension vidéo multimodale avec ancrage temporel instruit

VisionThink : modèle de langage visuel intelligent et efficace via l'apprentissage par renforcement

Déséquilibre dans l'équilibre : équilibrage des concepts en ligne dans les modèles de génération

Pilotage de politiques latentes avec des modèles mondiaux pré-entraînés et indépendants de l'incarnation

La formation à la vision et au langage aide à déployer les connaissances taxonomiques, mais ne les modifie pas fondamentalement

Réexamen de la fiabilité dans le benchmark d'estimation de pose basé sur le raisonnement

AbGen : Évaluation de grands modèles linguistiques dans la conception et l'évaluation d'études d'ablation pour la recherche scientifique

Vers une vérification formelle du code généré par LLM à partir d'invites en langage naturel

ÉValuation des algorithmes d'apprentissage par renforcement pour la navigation chez des quadrupèdes robotisés simulés : une étude comparative inspirée du comportement des chiens guides

Aperçu de TalentCLEF 2025 : Intelligence des compétences et des intitulés de poste pour la gestion du capital humain

QuestA : Développer la capacité de raisonnement dans les LLM grâce à l'augmentation des questions

Noyau de fusion pour l'optimisation bayésienne sur l'espace de permutation

Adaptation efficace d'un transformateur de vision pré-entraîné, soutenue par une stratégie de réglage fin approximativement orthogonale

Automatisation du pilotage pour des modèles linguistiques multimodaux sûrs et de grande taille

HATS : Ensemble de tests d'analogie hindi pour l'évaluation du raisonnement dans les grands modèles linguistiques

VITA : Politique de mise en correspondance des flux de la vision à l'action

$S^2M^2$ : Modèle de correspondance stéréo évolutif pour une estimation fiable de la profondeur

Synthétiser la réalité : exploiter la plateforme générative à IA Midparcours pour la détection des travailleurs du bâtiment

Aligner les humains et les robots grâce à l'apprentissage par renforcement à partir de commentaires humains implicites

SHIELD : un apprentissage intégré sécurisé et hautement amélioré pour une détection robuste des deepfakes contre les attaques adverses

Injection rapide 2.0 : menaces d'IA hybrides

Orbis : surmonter les défis de la prévision à long terme dans les modèles mondiaux de conduite

L'apprentissage par renforcement inverse rencontre le modèle de langage à grande échelle après la formation : bases, avancées et opportunités

VLMgineer : Les modèles de langage visuel comme outils robotiques

Created by

Haebom

Auteur

George Jiayuan Gao, Tianyu Li, Junyao Shi, Yihan Li, Zizhe Zhang, Nadia Figueroa, Dinesh Jayaraman

Contour

Dans cet article, nous présentons VLMgineer, un framework de co-conception itérative d'outils physiques et de leurs plans d'actionnement, exploitant les capacités de génération de code du modèle de langage de vision (VLM) et l'exploration évolutive. VLMgineer est évalué sur une variété de benchmarks inédits de scénarios de manipulation quotidienne nécessitant une conception et une utilisation créatives d'outils. Nous démontrons qu'il permet de découvrir des outils et des politiques plus efficaces et innovants que les outils existants créés par l'homme ou les conceptions génératives VLM dirigées par l'homme, transformant ainsi des problèmes robotiques complexes en exécutions simples. Nous prévoyons de rendre le benchmark et le code accessibles au public pour de futures recherches sur l'invention d'outils automatisés.

Takeaways, Limitations_

•

Takeaways:

◦

Une nouvelle méthode pour améliorer l’intelligence physique des robots en utilisant VLM est présentée.

◦

Fournit une nouvelle référence pour évaluer la créativité, la planification et la prévoyance dans la conception et l’utilisation des outils.

◦

Démontrer le potentiel de conception automatisée d’outils et de politiques efficaces et innovants qui simplifient les tâches robotiques complexes.

◦

Références et divulgation de codes pour la recherche future sur l'invention d'outils automatisés.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des repères présentés.

◦

Les performances de VLMgineer peuvent être biaisées en faveur de certains types de tâches.

◦

L'application et l'évaluation des performances de VLMgineer pour les systèmes robotiques réels sont nécessaires.

◦

Limitations potentielles dans la conception des outils en raison des limitations du VLM.

Made with Slashpage