Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion de texte en SQL de bout en bout avec sélection d'ensembles de données : Exploiter les LLM pour la génération de requêtes adaptatives

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

LAG : Génération Logique Augmentée d'un point de vue cartésien

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

FDC-Net : Repenser l'association entre la suppression des artefacts EEG et l'informatique affective multidimensionnelle

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

RCR-Router : routage contextuel efficace et sensible aux rôles pour les systèmes LLM multi-agents avec mémoire structurée

DS$^2$Net : réseau de supervision approfondie sémantique détaillée pour la segmentation d'images médicales

LLMDistill4Ads : Utilisation d'encodeurs croisés pour extraire les signaux LLM et recommander des mots-clés aux annonceurs sur eBay

Quand les voitures ont des stéréotypes : Audit des biais démographiques dans les objets à partir de modèles texte-image

HiTeC : Apprentissage contrastif hiérarchique sur hypergraphe à attributs textuels avec augmentation sémantique

SpectrumFM : redéfinir la cognition spectrale grâce à la modélisation des fondations

Chirurgie dynamique assistée par robot avec segmentation sémantique hiérarchique incrémentale de classe

Un nouveau modèle de langage pour prédire les résultats des événements indésirables graves dans les essais cliniques à partir de leurs enregistrements prospectifs

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

ALLoyM : un modèle de langage étendu pour la prédiction du diagramme de phase des alliages

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Les modèles de la Vision Foundation sont-ils prêts pour l’enregistrement d’images médicales prêtes à l’emploi ?

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

RAPNet : un réseau neuronal convolutif adaptatif à champ réceptif pour le pansharpening

AMix-1 : une voie vers un modèle de base protéique évolutif au cours des tests

Combler le dernier kilomètre de la prédiction : améliorer la prévision des séries chronologiques grâce à la correspondance conditionnelle des flux guidés

Speckle2Self : réduction du speckle par ultrasons auto-supervisée sans données propres

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

S'attaquer aux effets dévastateurs de l'empoisonnement des données à tâche unique dans l'apprentissage continu sans exemple

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

ARAG : Génération Augmentée de Récupération Agentique pour une Recommandation Personnalisée

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

CycleDistill : Amorçage de la traduction automatique à l'aide de LLM avec distillation cyclique

Détection robuste des anomalies dans le trafic réseau : évaluation des modèles d'apprentissage automatique sur CICIDS2017

Clonage de comportement robuste via la régularisation Lipschitz globale

K-Means à noyaux multiples induits par des boules granulaires

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

MMET : un transformateur multi-entrées et multi-échelles pour une résolution efficace des EDP

Une méthode d'optimisation en deux étapes pour la détection magnétique quantique à électron unique à large portée

Transformateur de téléconnexion basé sur la physique pour les prévisions sous-saisonnières à saisonnières à l'échelle mondiale

Compromis générés par l'IA pour la formation de coalitions

MLOps avec microservices : une étude de cas sur le domaine maritime

Le gagnant remporte tout pour la prévision probabiliste multivariée des séries chronologiques

Des bonds au-delà de ce qui est visible : Raisonnement renforcé Génération augmentée pour les notes cliniques

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

HERGC : Représentation d'experts hétérogènes et complétion générative pour graphes de connaissances multimodaux

Loup-garou verbal : engagez les utilisateurs avec un cadre de jeu de loup-garou agentique verbalisé

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

CADRE : Assurance personnalisable de la disponibilité des données dans un apprentissage fédéré préservant la confidentialité

FP4 All the Way : Formation entièrement quantifiée des LLM

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Extraction de connaissances probabilistes à partir de grands modèles de langage pour la paramétrisation des réseaux bayésiens

RIDGECUT : Apprentissage du partitionnement de graphes avec anneaux et coins

Perte uniforme vs. Optimisation spécialisée : une analyse comparative de l'apprentissage multitâche

Les stratégies d’investissement financier basées sur le LLM peuvent-elles surpasser le marché à long terme ?

Une approche d'apprentissage profond multimodal pour la prédiction de la forme de la matière blanche en tractographie IRM de diffusion

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Apprentissage de la représentation multimodale des protéines hiérarchiques bidirectionnelles

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Une théorie de l'apprentissage avec une chaîne de pensée autorégressive

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

ElementaryNet : un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux de forme normale

Raisonnement collectif chez les étudiants en master : un cadre pour la validation des réponses sans vérité fondamentale

Synthèse d'images médicales optimisée par l'IA : enseignements tirés du défi MedVQA-GI avec CLIP, diffusion stable finement réglée et Dream-Booth + LoRA

Prédire la dépression lors des entretiens de sélection grâce à une collaboration interactive multi-thématique

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

MQuant : Libérer le potentiel d'inférence des grands modèles linguistiques multimodaux grâce à la quantification statique complète

Atténuer les oscillations du trafic dans les flux de trafic mixtes grâce au contrôle prédictif évolutif de Koopman profond

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

FIT-Print : Vers une vérification de la propriété du modèle résistante aux fausses déclarations via une empreinte digitale ciblée

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Rang d'Ehrenfeucht-Haussler et chaîne de pensée

WebWalker : Analyse comparative des LLM en matière de navigation Web

IA générative pour l'animation cellulaire : une enquête

Vers un Cloud intelligent et sécurisé : une défense proactive optimisée par un modèle de langage étendu

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Comprendre et atténuer la mémorisation dans les modèles génératifs via la netteté des paysages de probabilité

Piloter la personnalisation des textes scientifiques pilotée par l'IA pour le grand public

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

EfficientEQA : une approche efficace pour répondre à des questions incarnées à vocabulaire ouvert

UoMo : un modèle universel de prévision du trafic mobile pour l'optimisation des réseaux sans fil

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Ajustement in situ des modèles de faune sauvage dans les pièges photographiques compatibles avec l'IoT pour une adaptation efficace

Pré-entraînement au langage EEG pour un phénotypage clinique hautement efficace en termes d'étiquetage

Une pratique de post-formation sur Llama-3 70B avec une sélection optimale du ratio de mélange de langues supplémentaires

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

La chaîne de pensée pense toujours vite : APriCoT aide à penser lentement

Enquête sur le modèle MoErging : recyclage et routage parmi les experts spécialisés pour l'apprentissage collaboratif

Biais IA-IA : les grands modèles de langage favorisent les communications générées par de grands modèles de langage

LVBench : un benchmark de compréhension des vidéos extrêmement longues

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Verre brisé, caméras défaillantes : simulation d'échantillons contradictoires basés sur la physique pour les systèmes de conduite autonome

Surveillance de l'exécution et application de l'équité conditionnelle dans les IA génératives

Sur l'efficacité des échantillons d'abstractions et la formation de récompenses basées sur le potentiel dans l'apprentissage par renforcement

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

Created by

Haebom

Auteur

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Contour

Cet article met en évidence les limites des approches existantes qui effectuent l'inférence et l'optimisation des politiques sur le même cluster GPU lors du post-entraînement de modèles de langage à grande échelle (LLM) basé sur l'apprentissage par renforcement. Cette approche viole l'hypothèse SPMD (programme unique, données multiples) et nuit ainsi à l'efficacité. Par conséquent, nous proposons un système d'apprentissage par renforcement appelé Echo, qui maintient l'efficacité statistique en séparant l'inférence et l'entraînement en essaims hétérogènes d'« inférence » et d'« entraînement ». Echo introduit deux protocoles de synchronisation légers : un mode pull séquentiel, qui met à jour les pondérations des politiques en fonction des appels d'API afin de minimiser les biais, et un mode push-pull asynchrone, qui diffuse les déploiements étiquetés par version via un tampon de relecture afin de maximiser l'utilisation du matériel. L'entraînement de trois tâches d'apprentissage par renforcement représentatives sur des clusters géographiquement distribués à l'aide de Qwen3-4B, Qwen2.5-7B et Qwen3-32B révèle qu'Echo atteint une vitesse de convergence et des performances de récompense finale comparables à celles d'une base de référence Verl entièrement colocalisée, tout en déchargeant les tâches d'inférence sur du matériel périphérique commun. Ces résultats démontrent que l’apprentissage par renforcement LLM à grande échelle peut atteindre des performances de niveau centre de données en utilisant des ressources distribuées et hétérogènes.

Takeaways, Limitations

•

Takeaways:

◦

Dans l’apprentissage par renforcement pour les modèles linguistiques à grande échelle, le découplage de l’inférence et de la formation offre la possibilité d’exploiter efficacement des ressources hétérogènes géographiquement réparties.

◦

Déchargez les tâches d'inférence vers le matériel de périphérie pour réduire les coûts tout en maintenant les performances au niveau du centre de données.

◦

Le mode pull séquentiel et le mode push-pull asynchrone vous permettent de maximiser l'utilisation du matériel tout en maintenant l'efficacité statistique.

•

Limitations :

◦

Des recherches supplémentaires sont nécessaires pour étudier l’évolutivité du système Echo proposé et sa compatibilité avec divers LLM.

◦

Une analyse détaillée des retards de communication et de la gestion des erreurs qui peuvent survenir dans des environnements géographiquement distribués est nécessaire.

◦

Des évaluations de performances supplémentaires dans divers environnements matériels sont nécessaires.

Voir le PDF

Made with Slashpage