Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transfert de structure : un calcul basé sur l'inférence pour la transformation des représentations

Ensemble de modèles de base de pathologie pour MIDOG 2025, piste 2 : Classification de la mitose atypique

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.

DaMoC : Sélection efficace du modèle de langage optimal pour affiner les tâches du domaine en fonction de la compression des données et du modèle

Techniques modulaires pour la génération de données synthétiques à contexte long dans l'apprentissage et l'évaluation de modèles de langage

EZhouNet : un cadre basé sur un réseau neuronal graphique et un intervalle d'ancrage pour la détection d'événements sonores respiratoires

AImoclips : une référence pour évaluer la transmission des émotions dans la conversion de texte en musique

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

ÉTude pilote sur l'IA générative et la pensée critique dans les classes de l'enseignement supérieur

Beacon : Quantification post-formation avec sélection de grille intégrée

L’intelligence artificielle est-elle en train de remodeler le paysage de la communauté académique internationale des géosciences ?

Attention vectorisée avec codage apprenable pour Quantum Transformer

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

MultiGen : Générateur de discours multilingue adapté aux enfants avec LLM

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Le langage de schéma conceptuel KG-ER

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

TriCLIP-3D : un cadre unifié et efficace en termes de paramètres pour la mise à la terre visuelle 3D trimodale basée sur CLIP

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Une analyse des méthodes de différence temporelle de valeur d'action qui apprennent les valeurs d'état

Décomposition des paramètres stochastiques

Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

ÉValuation de l'efficacité du raisonnement basé sur LLM pour la planification de tâches HPC multi-objectifs

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Optimisation de la transférabilité des modules en super-résolution d'image unique : évaluation de l'universalité et blocs résiduels de cycle

Transformateur de masque transférable : segmentation sémantique inter-domaines avec estimation de la transférabilité adaptative à la région

RBT4DNN : Tests basés sur les exigences des réseaux neuronaux

Apprentissage par imitation hors ligne robuste grâce à l'assemblage de trajectoires au niveau de l'état

Au-delà de l'holographie : les fondements de la gravité quantique entropique du traitement d'images

KNighter : Transformer l'analyse statique avec des vérificateurs synthétisés par LLM

FRIDA à la rescousse ! Analyse de l'efficacité des données synthétiques dans le raisonnement de bon sens basé sur les objets pour la réponse aux catastrophes.

CoDiff : modèle de diffusion conditionnelle pour la détection collaborative d'objets 3D

Apprentissage rapide des mots grâce à l'apprentissage méta-contextuel

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Un modèle de fondation basé sur une image naturelle ultra-large est-il supérieur à un modèle spécifique à la rétine pour détecter les maladies oculaires et systémiques ?

Score des valeurs aberrantes basé sur l'histogramme étendu (EHBOS)

ÉTude de la génération augmentée de graphiques pour les modèles de langage personnalisés de grande taille

Briser le goulot d'étranglement contextuel sur les prévisions de séries chronologiques longues

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Apprentissage expérientiel basé sur Kolb pour agents généralistes avec des performances scientifiques de niveau humain avec Kaggle

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux grâce à une théorie fondée sur des preuves

Formation robuste de modèles génératifs implicites pour les distributions multivariées et à queue lourde avec une perte statistique invariante

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

AutoPETIII : La frontière du Tracer. Quelle frontière ?

Réseau à séquences d'entrée longues pour la prévision de séries chronologiques longues

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

Unisolver : Transformateurs conditionnels d'EDP vers des solveurs neuronaux universels d'EDP

MTP : une abstraction de langage typée par le sens pour la programmation intégrée à l'IA

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Transfert de style vers les bandes dessinées Calvin et Hobbes à l'aide de Stable Diffusion

Autonomisation, pas automatisation : activités et besoins des vérificateurs de faits européens comme base pour la conception de systèmes d'IA centrés sur l'humain

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Extension de FKG.in : vers un réseau de traçabilité des allégations alimentaires

DeepVIS : relier le langage naturel et la visualisation des données grâce au raisonnement par étapes

Théorie de l'esprit utilisant l'inférence active : un cadre pour la coopération multi-agents

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Axiomatique des choix restreints par ordres linéaires d'ensembles avec minimum comme solution de repli

Invite guidée par DMN : un cadre pour contrôler le comportement LLM

Bases informatiques de la prise de décision en simulation sociale au LLM

La science à travers les langues : évaluation de la traduction multilingue d'articles scientifiques dans le cadre d'un master en droit

Amélioration de FKG.in : automatisation de l'analyse de la composition des aliments indiens

WASP : une approche pondération-espace pour détecter les faussetés apprises

Modèle de croyance transférable sur les circuits quantiques

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

(Ir)rationalité en IA : état de l'art, défis de recherche et questions ouvertes

Manuel de renseignement

ChronoGraph : un ensemble de données chronologiques multivariées basé sur des graphiques du monde réel

Activations Delta : une représentation pour les modèles de langage volumineux affinés

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Pas de pensées, juste de l'IA : les recommandations biaisées des LLM limitent l'intervention humaine dans la sélection des CV

IPA : un cadre de projection d'entrée préservant l'information pour une adaptation efficace du modèle de fondation

SSGaussian : transfert de style 3D sensible à la sémantique et préservant la structure

Prévision de la disponibilité du stationnement via la fusion de données multi-sources avec un transformateur inversé spatio-temporel amélioré par apprentissage auto-supervisé

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

De l'éditeur à l'estimateur de géométrie dense

Apprentissage de la représentation d'entités découplées pour le classement des publicités Pinterest

Les faits s'estompent rapidement : évaluation de la mémorisation des connaissances médicales obsolètes dans de grands modèles linguistiques

HumAine-Chatbot : IA conversationnelle personnalisée en temps réel via l'apprentissage par renforcement

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

Une étude empirique des vulnérabilités dans les packages Python et leur détection

Combien de patients pourrions-nous sauver avec des antécédents de LLM ?

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

MAGneT : Génération multi-agents coordonnée de séances synthétiques de conseil en santé mentale à plusieurs tours

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Ensemble YOLO pour la détection multispectrale des défauts dans les composants des éoliennes par drone

L'attention comme filtre adaptatif

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Amélioration de la recherche de documents techniques pour RAG

ÉDition efficace de modèles mixtes d'experts avec des experts compressés

Created by

Haebom

Auteur

Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla

Contour

Cet article propose le concept d'experts compressés pour une mise à l'échelle efficace des modèles de mélange d'experts (MoE). Les modèles MoE existants n'activent qu'un sous-ensemble d'experts lors de l'apprentissage et de l'inférence, mais tous les experts activés ne contribuent pas de manière égale aux performances. Cette étude propose une méthode pour réduire le nombre de paramètres actifs et les coûts d'inférence en remplaçant les experts insignifiants par des modules compressés et légers. Les résultats expérimentaux obtenus avec les modèles Phi-MoE et OLMoE démontrent que les experts compressés récupèrent plus de 90 % de la performance totale des experts tout en réduisant les paramètres actifs de plus de 30 % et les coûts d'inférence de plus de 20 %. Cela permet un déploiement efficace des modèles MoE dans des environnements aux ressources limitées et leur mise à l'échelle vers des modèles plus grands. Le code est disponible à l'adresse https://github.com/yifei-he/Compressed-Experts .

GitHub - yifei-he/Compressed-Experts: [EMNLP 2025] Efficiently Editing Mixture-of-Experts Models with Compressed Experts

[EMNLP 2025] Efficiently Editing Mixture-of-Experts Models with Compressed Experts - yifei-he/Compressed-Experts

Takeaways, Limitations

•

Takeaways:

◦

Présentation d'une nouvelle méthode qui peut améliorer considérablement l'efficacité du modèle MoE.

◦

Déploiement de modèle MoE économe en ressources avec des paramètres actifs et des coûts d'inférence réduits.

◦

Amélioration de l’évolutivité des modèles MoE à grande échelle.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode de compression proposée.

◦

D’autres expériences avec différentes architectures MoE et tâches en aval sont nécessaires.

◦

Une analyse quantitative de la perte d’informations lors de la compression est nécessaire.

Made with Slashpage