Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RotBench : Évaluation de modèles linguistiques multimodaux de grande taille pour l'identification de la rotation d'images

Mise à l'échelle du temps d'entrée

CRED-SQL : Amélioration de l'analyse texte-SQL des bases de données à grande échelle dans le monde réel grâce à la récupération et à l'exécution de clusters Description

STEM : Évaluation efficace des capacités relatives des LLM grâce à des échantillons de transition structurés

AdaRing : Vers une adaptation vision-langage ultra-légère via la décomposition en anneaux tensoriels inter-couches

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

MAViS : un framework multi-agents pour la narration vidéo en longues séquences

ExpVG : Étude de l'espace de conception de l'ancrage visuel dans un modèle de langage multimodal à grande échelle

MetAdv : une plateforme de tests contradictoires unifiée et interactive pour la conduite autonome

ETA : Adaptation du temps de test basée sur l'énergie pour l'achèvement en profondeur

Extension des estimateurs de profondeur monoculaires fondamentaux aux caméras fisheye avec des jetons d'étalonnage

Quand les bons sons deviennent conflictuels : jailbreaker les modèles de langage audio avec des entrées bénignes

CRINN : Apprentissage par renforcement contrastif pour la recherche approximative du plus proche voisin

Réinitialisation des poids par rapport aux unités pour maintenir la plasticité dans les réseaux neuronaux

À Chacun son truc : explorer l'intégration optimale dans RAG

La distillation des caractéristiques est le meilleur choix pour l'apprentissage fédéré à modèle hétérogène

TolerantECG : un modèle fondamental pour l'électrocardiogramme imparfait

DeepRetro : Découverte de voies rétrosynthétiques à l'aide du raisonnement LLM itératif

LoSiA : réglage fin efficace de haut niveau via la localisation et l'optimisation des sous-réseaux

Structure comme recherche : apprentissage par permutation non supervisé pour l'optimisation combinatoire

Amélioration de la sensibilité temporelle d'un grand modèle linguistique pour la recommandation avec un réglage contrefactuel

Analyse de scènes auditives multi-agents

MinD : Apprentissage d'un modèle mondial à double système pour la planification en temps réel et l'analyse des risques implicites

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Analyse comparative des modèles de séries chronologiques pré-entraînés pour la prévision des prix de l'électricité

Spore dans la nature : étude de cas de Spore.fun, une expérience d'évolution en environnement ouvert avec des agents d'IA souverains sur des blockchains sécurisées par TEE

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Restauration neuronale des défauts de verdissement dans les photographies autochromes historiques à partir de données purement synthétiques

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

Format de données commun (CDF) : un format standardisé pour les données de match de football

Les transformateurs à une couche sont prouvés comme optimaux pour le raisonnement en contexte et l'apprentissage par association distributionnelle dans les tâches de prédiction du prochain jeton

FMSD-TTS : Synthèse vocale multi-dialectes multi-locuteurs à quelques clichés pour la génération de jeux de données vocales en U-Tsang, Amdo et Kham

Quantification de l'incertitude pour les modèles linguistiques : une suite d'outils de notation de type boîte noire, boîte blanche, juge LLM et ensemble

Hallucinations et extraction d'informations clés dans les textes médicaux : une évaluation complète des grands modèles linguistiques open source

Un cadre conceptuel pour les systèmes de décision basés sur l'IA dans les infrastructures critiques

Actions dominées dans les jeux d'information imparfaite

Exercices pratiques : segmentation de signes individuels à partir de séquences continues

PathGPT : Recadrer la recommandation de chemin comme tâche de génération de langage naturel avec des modèles de langage augmentés par récupération

Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence

JudgeLRM : Grands modèles de raisonnement en tant que juge

L'IA générative dans l'éducation primaire et secondaire : l'initiative CyberScholar

Génération de langage naturel à partir d'événements visuels : état de l'art et questions clés ouvertes

Apprentissage par renforcement hybride basé sur l'action pour une conduite autonome multi-objectifs compatible

La distillation contrastive est-elle suffisante pour apprendre des représentations 3D complètes ?

Moteur d'action : génération automatique de flux de travail dans FaaS

L'importance des langages de modélisation visuelle dans l'ingénierie logicielle générative

Stylisation de tête 3D préservant l'identité avec distillation de partition multivue

SLED : Décodage de l'évolution des logits pour améliorer la facticité dans les grands modèles linguistiques

Test des composants de la théorie des schémas d'attention dans les réseaux de neurones artificiels

Un peu de données humaines peut faire beaucoup de chemin

Source2Synth : génération et conservation de données synthétiques basées sur des sources de données réelles

Débiaising social pour des LLM multimodaux équitables

Une analyse comparative complète des réseaux de neurones spectraux (GNN) : leur impact sur l'efficacité, la mémoire et l'efficience

LoRA-XS : adaptation de bas rang avec un nombre extrêmement réduit de paramètres

Améliorer le diagnostic de dépression grâce au suivi de l'état psychologique

Estimation des limites inférieures de dissipation d'énergie pour l'apprentissage neuromorphique en mémoire

N'appuyez pas sur le bouton ! Exploration des risques de fuite de données dans l'apprentissage automatique et le transfert d'apprentissage.

Vers l'utilisation de cartes de saillance pour expliquer les électrocardiogrammes de faible qualité aux utilisateurs finaux

Convergence de Nash des algorithmes d'apprentissage basés sur la moyenne dans les enchères au premier prix

TASER : Agents de table pour l'extraction et la recommandation guidées par schéma

Modélisation de circuits logiques relationnels pour réseaux convolutifs à graphes inverseurs

EvoCurr : programme d'études auto-évolutif avec génération de codes comportementaux pour la prise de décision complexe

KIRETT : Assistant de traitement intelligent basé sur un graphique de connaissances pour les opérations de sauvetage intelligentes

EoH-S : Évolution des ensembles heuristiques utilisant des LLM pour la conception heuristique automatisée

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

Analyse comparative des pipelines de génération augmentée (RAG) de récupération vectorielle, graphique et hybride pour les réseaux d'accès radio ouverts (ORAN)

Le benchmark NordDRG AI pour les grands modèles linguistiques

Gradients de politique de mémoire finie robustes pour les POMDP à modèle caché

Loi d'échelle de l'agent RL : Agent RL avec exécution de code spontanée pour la résolution de problèmes mathématiques

Apprentissage non supervisé pour l'affectation quadratique

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Analyse comparative de la construction de graphes par de grands modèles de langage pour l'inférence pilotée par la cohérence

La quantification rencontre les dLLM : une étude systématique de la quantification post-formation pour les LLM en diffusion

Apprentissage de la structure des graphes avec goulot d'étranglement des informations temporelles des graphes pour l'apprentissage par représentation inductive

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ via la compression de la hauteur de l'arbre

Raisonnement à longue chaîne de pensée à travers les langues

D'un outil passif à un coéquipier sociocognitif : un cadre conceptuel pour l'IA agentique dans l'apprentissage collaboratif humain-IA

ÉValuation de la génération augmentée par récupération par rapport à la saisie de contexte long pour le raisonnement clinique sur les DSE

TransLight : Contrôle d'éclairage personnalisé guidé par l'image avec découplage génératif

DINov3 avec formation en temps de test pour l'enregistrement d'images médicales

MF-LPR$^2$ : Restauration et reconnaissance d'images de plaques d'immatriculation multi-images à l'aide du flux optique

TransLLM : un cadre de base multitâche unifié pour le transport urbain via des invites d'apprentissage

PepThink-R1 : Master en optimisation des peptides cycliques interprétables avec CoT SFT et apprentissage par renforcement

Génération fiable de problèmes de physique isomorphes à l'aide de ChatGPT avec chaînage d'invites et utilisation d'outils

Génération de molécules contrôlées par modalités croisées avec modèle de langage de diffusion

ÉValuation de l'alignement multilingue et à code commuté dans les LLM via l'inférence synthétique en langage naturel

AFABench : un cadre générique pour l'évaluation comparative de l'acquisition active de fonctionnalités

Jeux Emerson-Lei et Manna-Pnueli pour la synthèse LTLf+ et PPLTL+

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

ShizhenGPT : Vers des masters multimodaux en médecine traditionnelle chinoise

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Ennemi de la fraude : attaques adverses transférables dans la détection de la fraude par carte de crédit

ECHO : codage hiérarchique sensible à la fréquence pour signal de longueur variable

ELATE : Modèle de langage évolutif pour l'ingénierie automatisée des séries chronologiques

OneLoc : Systèmes de recommandation générative géo-sensibles pour les services de la vie locale

Les agents LLM peuvent-ils résoudre des tâches collaboratives ? Étude sur la planification et la coordination en fonction de l'urgence.

ÉTude du rapport signal/distorsion invariant d'échelle dans la séparation de la parole avec des références bruyantes

UST-SSM : Modèles d'espace d'état spatio-temporel unifiés pour la modélisation vidéo de nuages de points

Un cadre de co-développement HW-SW open source permettant des systèmes multi-accélérateurs efficaces

Mamba2 rencontre le silence : séparation robuste des sources vocales pour les régions clairsemées

Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence

Created by

Haebom

Auteur

Zhihan Zhang, Yixin Cao, Lizi Liao

Contour

Cet article se concentre sur la conversion d'images graphiques en scripts de traçage exécutables, à savoir la génération de graphiques en code. Cette tâche est intrinsèquement peu contrainte et nécessite un modèle de langage multimodal à grande échelle (MLLM) pour réaliser une analyse visuelle fine, une synthèse de code précise et une inférence intermodale robuste. Plusieurs implémentations de code valides peuvent générer le même graphique visuel, et l'évaluation doit prendre en compte à la fois l'exactitude du code et la fidélité visuelle sur plusieurs dimensions. Il est donc difficile d'apprendre des correspondances précises et généralisables à l'aide d'un réglage fin supervisé standard. Pour relever ce défi, cet article propose un cadre d'amélioration du guidage par double préférence qui combine un mécanisme de récompense bimodal basé sur le feedback et un apprentissage itératif des préférences. Notre approche génère efficacement des paires de préférences de haute qualité, sensibles aux aspects, en introduisant une stratégie de génération de variations structurée et un modèle de récompense visuelle, augmentant ainsi l'évolutivité de la collecte des préférences et rendant la supervision plus orientée vers les objectifs. Ces préférences sont ensuite utilisées dans un contexte d'apprentissage par renforcement hors ligne afin d'optimiser le modèle et d'améliorer la fidélité multidimensionnelle. Les résultats expérimentaux démontrent que le framework proposé améliore significativement les performances des MLLM open source à usage général, générant un code de traçage de haute qualité qui rivalise avec les modèles professionnels centrés sur les graphiques, voire avec certains systèmes propriétaires. Le code et l'ensemble de données sont accessibles au public à l'adresse https://github.com/Zhihan72/Chart2Code .

GitHub - Zhihan72/Chart2Code: This is a project for double-blind reviewing.

This is a project for double-blind reviewing. Contribute to Zhihan72/Chart2Code development by creating an account on GitHub.

github.com

Takeaways, Limitations_

•

Takeaways:

◦

Nous avons considérablement amélioré les performances de génération de graphiques en code d'un MLLM open source à usage général grâce à notre cadre d'amélioration des conseils de double préférence.

◦

Nous présentons une stratégie permettant de générer efficacement des paires de préférences de haute qualité tenant compte des aspects, augmentant ainsi l'évolutivité de la collecte des préférences.

◦

Nous présentons une configuration d’apprentissage par renforcement hors ligne qui optimise les modèles pour améliorer la fidélité multidimensionnelle.

◦

La qualité du code généré s’est améliorée au point de pouvoir rivaliser avec les modèles professionnels centrés sur les graphiques et certains systèmes propriétaires.

◦

Nous avons rendu notre code et nos ensembles de données accessibles au public pour améliorer la reproductibilité de nos recherches.

•

Limitations:

◦

Les performances du cadre proposé peuvent dépendre du MLLM et de l’ensemble de données utilisés.

◦

Les performances de généralisation pour les graphiques complexes ou de forme spéciale nécessitent une étude plus approfondie.

◦

Il peut être nécessaire de développer et d’améliorer des mesures d’évaluation qui prennent en compte à la fois la fidélité visuelle et l’exactitude du code.

◦

La prise en charge de différents types de bibliothèques de traçage peut devoir être étendue.

Voir le PDF

Made with Slashpage