Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion de texte en SQL de bout en bout avec sélection d'ensembles de données : Exploiter les LLM pour la génération de requêtes adaptatives

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

LAG : Génération Logique Augmentée d'un point de vue cartésien

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

FDC-Net : Repenser l'association entre la suppression des artefacts EEG et l'informatique affective multidimensionnelle

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

RCR-Router : routage contextuel efficace et sensible aux rôles pour les systèmes LLM multi-agents avec mémoire structurée

DS$^2$Net : réseau de supervision approfondie sémantique détaillée pour la segmentation d'images médicales

LLMDistill4Ads : Utilisation d'encodeurs croisés pour extraire les signaux LLM et recommander des mots-clés aux annonceurs sur eBay

Quand les voitures ont des stéréotypes : Audit des biais démographiques dans les objets à partir de modèles texte-image

HiTeC : Apprentissage contrastif hiérarchique sur hypergraphe à attributs textuels avec augmentation sémantique

SpectrumFM : redéfinir la cognition spectrale grâce à la modélisation des fondations

Chirurgie dynamique assistée par robot avec segmentation sémantique hiérarchique incrémentale de classe

Un nouveau modèle de langage pour prédire les résultats des événements indésirables graves dans les essais cliniques à partir de leurs enregistrements prospectifs

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

ALLoyM : un modèle de langage étendu pour la prédiction du diagramme de phase des alliages

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Les modèles de la Vision Foundation sont-ils prêts pour l’enregistrement d’images médicales prêtes à l’emploi ?

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

RAPNet : un réseau neuronal convolutif adaptatif à champ réceptif pour le pansharpening

AMix-1 : une voie vers un modèle de base protéique évolutif au cours des tests

Combler le dernier kilomètre de la prédiction : améliorer la prévision des séries chronologiques grâce à la correspondance conditionnelle des flux guidés

Speckle2Self : réduction du speckle par ultrasons auto-supervisée sans données propres

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

S'attaquer aux effets dévastateurs de l'empoisonnement des données à tâche unique dans l'apprentissage continu sans exemple

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

ARAG : Génération Augmentée de Récupération Agentique pour une Recommandation Personnalisée

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

CycleDistill : Amorçage de la traduction automatique à l'aide de LLM avec distillation cyclique

Détection robuste des anomalies dans le trafic réseau : évaluation des modèles d'apprentissage automatique sur CICIDS2017

Clonage de comportement robuste via la régularisation Lipschitz globale

K-Means à noyaux multiples induits par des boules granulaires

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

MMET : un transformateur multi-entrées et multi-échelles pour une résolution efficace des EDP

Une méthode d'optimisation en deux étapes pour la détection magnétique quantique à électron unique à large portée

Transformateur de téléconnexion basé sur la physique pour les prévisions sous-saisonnières à saisonnières à l'échelle mondiale

Compromis générés par l'IA pour la formation de coalitions

MLOps avec microservices : une étude de cas sur le domaine maritime

Le gagnant remporte tout pour la prévision probabiliste multivariée des séries chronologiques

Des bonds au-delà de ce qui est visible : Raisonnement renforcé Génération augmentée pour les notes cliniques

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

HERGC : Représentation d'experts hétérogènes et complétion générative pour graphes de connaissances multimodaux

Loup-garou verbal : engagez les utilisateurs avec un cadre de jeu de loup-garou agentique verbalisé

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

CADRE : Assurance personnalisable de la disponibilité des données dans un apprentissage fédéré préservant la confidentialité

FP4 All the Way : Formation entièrement quantifiée des LLM

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Extraction de connaissances probabilistes à partir de grands modèles de langage pour la paramétrisation des réseaux bayésiens

RIDGECUT : Apprentissage du partitionnement de graphes avec anneaux et coins

Perte uniforme vs. Optimisation spécialisée : une analyse comparative de l'apprentissage multitâche

Les stratégies d’investissement financier basées sur le LLM peuvent-elles surpasser le marché à long terme ?

Une approche d'apprentissage profond multimodal pour la prédiction de la forme de la matière blanche en tractographie IRM de diffusion

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Apprentissage de la représentation multimodale des protéines hiérarchiques bidirectionnelles

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Une théorie de l'apprentissage avec une chaîne de pensée autorégressive

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

ElementaryNet : un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux de forme normale

Raisonnement collectif chez les étudiants en master : un cadre pour la validation des réponses sans vérité fondamentale

Synthèse d'images médicales optimisée par l'IA : enseignements tirés du défi MedVQA-GI avec CLIP, diffusion stable finement réglée et Dream-Booth + LoRA

Prédire la dépression lors des entretiens de sélection grâce à une collaboration interactive multi-thématique

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

MQuant : Libérer le potentiel d'inférence des grands modèles linguistiques multimodaux grâce à la quantification statique complète

Atténuer les oscillations du trafic dans les flux de trafic mixtes grâce au contrôle prédictif évolutif de Koopman profond

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

FIT-Print : Vers une vérification de la propriété du modèle résistante aux fausses déclarations via une empreinte digitale ciblée

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Rang d'Ehrenfeucht-Haussler et chaîne de pensée

WebWalker : Analyse comparative des LLM en matière de navigation Web

IA générative pour l'animation cellulaire : une enquête

Vers un Cloud intelligent et sécurisé : une défense proactive optimisée par un modèle de langage étendu

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Comprendre et atténuer la mémorisation dans les modèles génératifs via la netteté des paysages de probabilité

Piloter la personnalisation des textes scientifiques pilotée par l'IA pour le grand public

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

EfficientEQA : une approche efficace pour répondre à des questions incarnées à vocabulaire ouvert

UoMo : un modèle universel de prévision du trafic mobile pour l'optimisation des réseaux sans fil

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Ajustement in situ des modèles de faune sauvage dans les pièges photographiques compatibles avec l'IoT pour une adaptation efficace

Pré-entraînement au langage EEG pour un phénotypage clinique hautement efficace en termes d'étiquetage

Une pratique de post-formation sur Llama-3 70B avec une sélection optimale du ratio de mélange de langues supplémentaires

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

La chaîne de pensée pense toujours vite : APriCoT aide à penser lentement

Enquête sur le modèle MoErging : recyclage et routage parmi les experts spécialisés pour l'apprentissage collaboratif

Biais IA-IA : les grands modèles de langage favorisent les communications générées par de grands modèles de langage

LVBench : un benchmark de compréhension des vidéos extrêmement longues

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Verre brisé, caméras défaillantes : simulation d'échantillons contradictoires basés sur la physique pour les systèmes de conduite autonome

Surveillance de l'exécution et application de l'équité conditionnelle dans les IA génératives

Sur l'efficacité des échantillons d'abstractions et la formation de récompenses basées sur le potentiel dans l'apprentissage par renforcement

NatureGAIA : repousser les limites des agents GUI grâce à un benchmark exigeant et un ensemble de données de trajectoire de haute qualité

Created by

Haebom

Auteur

Zihan Zheng, Tianle Cui, Chuwen Xie, Jiahui Zhang, Jiahui Pan, Lewei He, Qianglong Chen

Contour

Cet article propose NaturalGAIA, un nouveau benchmark basé sur le principe des voies causales (CPA), afin de pallier les limitations de précision, de reproductibilité et d'évolutivité des benchmarks d'évaluation existants, qui freinent le développement d'agents d'interface utilisateur graphique (GUI) basés sur des modèles de langage à grande échelle (LLM). NaturalGAIA fournit des critères d'évaluation rigoureux, entièrement automatisés et reproductibles en structurant les tâches complexes en une série d'étapes atomiques, vérifiables par programmation. De plus, pour pallier les défauts fonctionnels inhérents aux agents, nous développons LightManus, une architecture d'agent hiérarchique optimisée pour les tâches à long terme. Cette architecture permet de générer un ensemble de données de haute qualité, validé par l'homme, qui capture les schémas d'interaction diversifiés et autocorrectifs des LLM. À partir de cet ensemble de données, nous réalisons un réglage fin par apprentissage par renforcement (RFT) sur le modèle Qwen2.5-VL-7B. Les résultats expérimentaux démontrent que NaturalGAIA présente des défis importants, même pour les LLM les plus performants. Le modèle le plus performant, Claude-sonnet-4, atteint un taux de réussite pondéré (WPSR) de seulement 34,6 %. Si RFT a amélioré la capacité d'exécution de l'interface utilisateur graphique (WPSR) des petits modèles (passant de 3,3 % à 10,8 %), les performances se sont dégradées de manière significative dans les scénarios complexes, démontrant les limites de performance inhérentes aux petits modèles face à des tâches complètes intégrant perception, prise de décision et exécution. Cette étude fournit des critères d'évaluation rigoureux et un ensemble de données de haute qualité, offrant des orientations pour le développement futur des agents d'interface utilisateur graphique.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons NaturalGAIA, un nouveau benchmark rigoureux et reproductible pour évaluer les agents GUI basés sur LLM.

◦

Développement de LightManus, une architecture d'agent hiérarchique optimisée pour les tâches à long terme et génération d'ensembles de données de haute qualité.

◦

Démonstration expérimentale de l'efficacité et des limites du RFT pour améliorer la capacité d'exécution de l'interface graphique de LLM.

◦

Fournit une évaluation réaliste des capacités de performance de l'interface utilisateur graphique des LLM actuels de pointe.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur l’évolutivité et la généralisabilité du benchmark NaturalGAIA.

◦

Une analyse plus approfondie est nécessaire pour comprendre pourquoi l’efficacité du RFT varie considérablement en fonction de la taille du modèle.

◦

Les repères doivent être élargis pour couvrir des tâches d’interface utilisateur graphique plus diverses et plus complexes.

◦

La généralisabilité de l’architecture LightManus à d’autres LLM et tâches doit être vérifiée.

Voir le PDF

Made with Slashpage