Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoilage des images de microscopie optique avec adaptation de flux conditionnel guidée : trouver le juste milieu entre fidélité et réalisme

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Affiner-POI : Renforcement des modèles linguistiques volumineux affinés pour la recommandation du prochain point d'intérêt

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

Compréhension de Potemkine dans les grands modèles linguistiques

OmniEval : une référence pour l'évaluation des modèles omnimodaux avec des entrées visuelles, auditives et textuelles

Comment récupérer des exemples dans l'apprentissage en contexte pour améliorer la reconnaissance des émotions conversationnelles à l'aide de grands modèles linguistiques ?

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Classification des dialectes arabes à l'aide de réseaux de neurones rénaux (RNN), de transformateurs et de grands modèles linguistiques : une analyse comparative

Améliorer l'interaction entre les étudiants et l'IA grâce à des incitations pédagogiques : un exemple dans l'enseignement de l'informatique

APERÇU : Cartographie de l'importance des couches de gradient pour l'explication de la saillance visuelle incitée pour les LVLM génératifs

ÉValuation automatique de la dépression grâce à l'apprentissage automatique : une enquête complète

Généralisation des modèles vision-langage à de nouveaux domaines : une étude approfondie

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Détection de chansons générée par l'IA via les transcriptions des paroles

KAG-Thinker : pensée interactive et raisonnement approfondi dans les LLM via la génération augmentée des connaissances

Problèmes de qualité des données dans les ensembles de données vocales multilingues : la nécessité d'une sensibilisation sociolinguistique et d'une planification linguistique proactive

Double Entendre : Détection robuste des paroles générées par l'IA et basée sur l'audio via la fusion multi-vues

Alignement de l'évaluation sur les priorités cliniques : étalonnage, décalage d'étiquette et coûts d'erreur

Optimisation des politiques sans valeur via le partitionnement des récompenses

VFEFL : Apprentissage fédéré préservant la confidentialité contre les clients malveillants via un chiffrement fonctionnel vérifiable

Activation d'un alignement précis des sujets dans les grands modèles linguistiques via des autoencodeurs clairsemés

Désapprentissage robuste du LLM avec MUDMAN : méta-désapprentissage avec masquage et normalisation des perturbations

CMI-Bench : un benchmark complet pour évaluer l'enseignement de la musique après

StepProof : vérification étape par étape des preuves mathématiques en langage naturel

Génération de molécules 3D non équivariantes évolutives via l'alignement rotationnel

Amélioration du réglage fin supervisé pour les grands modèles de langage afin d'atténuer les oublis catastrophiques

SLED : un cadre de décodage LLM spéculatif pour un service de périphérie efficace

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

VeriLoC : Prédiction au niveau de la ligne de code de la qualité de la conception matérielle à partir du code Verilog

Autonomie multicouche et écologies de l'IA dans les installations artistiques robotiques

Relier la qualité d'expérience subjective et objective : agrégation au niveau de l'opérateur à l'aide de l'analyse des commentaires basée sur LLM et de la comparaison des MOS du réseau

Informatique quantique et intelligence artificielle : état des lieux et perspectives

Affiner les modèles autorégressifs visuels de nouvelle génération avec l'optimisation des politiques relatives aux groupes

Une architecture de contrôle basée sur un modèle de langage volumineux pour l'exploration dynamique des capacités des ressources dans les systèmes de fabrication multi-agents

Spotlight-TTS : mise en valeur du style grâce à l'extraction de style sensible à la voix et à l'ajustement de la direction du style pour une synthèse vocale expressive

WeatherEdit : Édition météo contrôlable avec champ gaussien 4D

De l'alignement à l'avancement : amorcer l'alignement audio-langage avec des données synthétiques

Optimisation des erreurs : surmonter la décroissance exponentielle du signal dans les réseaux de codage prédictif profond

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Amélioration vidéo basée sur des réseaux antagonistes génératifs à super-résolution

Détection d'objets dans des conditions météorologiques défavorables pour les véhicules autonomes à l'aide d'Instruct Pix2Pix

APERÇU : Combler le fossé entre élèves et enseignants à l'ère des grands modèles linguistiques

SConU : Incertitude conforme sélective dans les grands modèles linguistiques

MetaSynth : échafaudages agentiques pilotés par méta-invite pour la génération de données synthétiques diversifiées

Sculpter la mémoire : oubli multi-concepts dans les modèles de diffusion via un masque dynamique et une optimisation tenant compte des concepts

Atteindre le poids binaire et l'activation pour les LLM à l'aide de la quantification post-formation

Une critique conséquentialiste des pratiques d'évaluation de la classification binaire

Redéfinir les normes d'évaluation : un cadre unifié pour évaluer les capacités des modèles linguistiques coréens

Raisonnement au moment du test grâce aux préférences visuelles humaines avec des VLM et des récompenses souples

FedMM-X : Un cadre fiable et interprétable pour l'apprentissage multimodal fédéré dans des environnements dynamiques

Automatisation de l'évaluation des événements cardiovasculaires à l'aide de grands modèles linguistiques

ATTENTION2D : Mécanisme d'auto-attention distribuée efficace en communication

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Time-R1 : Modèle de langage de vision large post-formation pour l'ancrage vidéo temporel

Alignement de l'éthique de la confidentialité dans l'IA : un cadre centré sur les parties prenantes pour une IA éthique

Caractérisation de la résilience du GPU et de son impact sur les systèmes IA/HPC

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

Le problème des a priori ou des postérieurs ?

Gumiho : une architecture hybride pour prioriser les premiers jetons dans le décodage spéculatif

Perturber la fusion des modèles : une défense au niveau des paramètres sans sacrifier la précision

Que peuvent faire les grands modèles linguistiques pour une alimentation durable ?

Un nombre suffisant de lancers de pièces peut inciter les LLM à agir de manière bayésienne

Comment déplacer votre dragon : synthèse de texte en mouvement pour les objets à vocabulaire étendu

Time-MQA : Réponses multitâches à des questions chronologiques avec amélioration du contexte

PipeOffload : amélioration de l'évolutivité du parallélisme des pipelines grâce à l'optimisation de la mémoire

Graphiques spatio-temporels d'ensembles convexes pour la planification de mouvements multi-robots

HalCECE : un cadre pour la détection explicable des hallucinations grâce à des contrefactuels conceptuels dans les légendes d'images

LNUCB-TA : Apprentissage hybride linéaire-non linéaire avec attention temporelle

Bien sûr que non ! Les mécanismes de refus peuvent être exploités grâce à des données de réglage fin inoffensives.

ÉTude de l'impact des méthodes de quantification sur la sécurité et la fiabilité des grands modèles linguistiques

ÉValuation LLM basée sur la génération augmentée de récupération pour l'inférence de machine à états de protocole avec raisonnement par chaîne de pensée

Un modèle de langage général pour l'identification des peptides

Regrouper et prédire les patchs latents pour une modélisation améliorée des images masquées

Streaming vidéo adaptatif et sémantique utilisant des modèles de diffusion latente pour les réseaux sans fil

KMI : un ensemble de données de dialogues d'entretiens motivationnels coréens pour la psychothérapie

Interprétabilité mécaniste de l'inférence des émotions dans les grands modèles linguistiques

Tokeniseur de codes médicaux multimodaux

Il est temps de repenser l'IA pour l'optimisation combinatoire : les algorithmes classiques restent difficiles à égaler

Planification simultanée de mouvements multi-robots avec modèles de diffusion projetés

Calibrage extrinsèque de caméra LiDAR en ligne basé sur l'environnement

Devinez-moi ceci ! Inférence d'appartenance furtive pour la génération augmentée par récupération

DReSS : rationalisation structurée et régularisée basée sur les données pour les grands modèles linguistiques

Vers un apprentissage auto-supervisé automatisé pour une détection d'anomalies de graphes véritablement non supervisée

Allocation adaptative des rangs pour un réglage fin efficace des paramètres fédérés des modèles de langage

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Une enquête sur les variations saisonnières des prévisions énergétiques pour les résidences étudiantes

Servir efficacement les grands modèles multimodaux grâce à la désagrégation EPD

PRMBench : une référence précise et exigeante pour les modèles de récompense au niveau des processus

AlignGuard : alignement de sécurité évolutif pour la génération de texte en image

Une bibliothèque pour l'apprentissage des opérateurs neuronaux

ZipAR : Génération d'images autorégressives parallèles via la localité spatiale

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

SEUF : Désapprendre un expert suffit-il pour les LLM composés d'un mélange d'experts ?

Systèmes de recommandation pour le bien commun (RS4Good) : étude de cas et appel à l'action pour une recherche pertinente

Modèles fondamentaux pour les données de mouvement portables dans la recherche en santé mentale

GenBFA : une approche d'optimisation évolutive pour les attaques par retournement de bits sur les LLM

Amélioration de l'échantillonnage postérieur par diffusion pour les problèmes inverses en intégrant des mesures élaborées

Vers des architectures neuronales distribuées

Created by

Haebom

Auteur

Aditya Cowsik, Tianyu He, Andreï Gromov

Contour

Cet article présente une méthode permettant d'introduire et d'entraîner une architecture de réseau neuronal distribué (ADN) dans les domaines de la vision et du langage. ADN est initialisée comme une proto-architecture composée de modules tels que des transformateurs, des MLP, des modules d'attention et des routeurs. Un jeton (ou patch) peut traverser une série arbitraire de modules dans n'importe quel ordre. ADN est une généralisation naturelle des méthodes parcimonieuses telles que le mélange d'experts, le mélange de profondeurs et le partage de paramètres. Les schémas de calcul et de communication des modules ADN sont appris de bout en bout pendant l'apprentissage et dépendent du contenu et du contexte de chaque jeton (ou patch). Ces schémas peuvent être façonnés par des exigences supplémentaires pour des objectifs d'optimisation tels que l'efficacité de calcul/mémoire ou la répartition de charge. Expérimentalement, nous montrons que l'ADN entraîné est compétitif par rapport aux modèles de base denses dans les deux domaines et peut apprendre l'efficacité de calcul/le partage de paramètres à partir des données. De plus, en analysant la connectivité d'émergence et les schémas de calcul de l'ADN entraîné, nous constatons que les chemins empruntés par les jetons à travers le modèle sont distribués selon une loi de puissance, et montrons que certains chemins (ou, de manière équivalente, groupes de modules) présentent une spécialisation d'émergence. Enfin, nous montrons que le modèle apprend à assigner des paramètres de calcul et d'activation de manière interprétable.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une structure généralisée pour les modèles clairsemés via une architecture de réseau neuronal distribué (ADN) et montrons que l'efficacité de calcul et le partage des paramètres peuvent être obtenus grâce à elle.

◦

Nous démontrons que les modèles de calcul et de communication de l’ADN peuvent être appris à partir de données et façonnés en fonction d’objectifs d’optimisation.

◦

Nous constatons que la connectivité et les modèles de calcul émergeant de l’ADN entraîné suivent une distribution de loi de puissance, révélant la spécialisation des groupes de modules.

◦

Nous veillons à ce que le modèle apprenne à allouer des paramètres de calcul et d’activation de manière interprétable.

◦

Atteint des performances compétitives avec des modèles de base denses dans les domaines de la vision et du langage.

•

Limitations:

◦

D’autres études sont nécessaires pour étudier l’évolutivité générale de l’architecture d’ADN proposée et son applicabilité à diverses tâches.

◦

Une analyse plus approfondie de la complexité du processus de formation de l’ADN et de la stabilité de la formation est nécessaire.

◦

Des recherches approfondies sont nécessaires sur les stratégies d’optimisation des architectures d’ADN pour des tâches ou des ensembles de données spécifiques.

◦

Manque d'explication théorique de la distribution de la loi de puissance et du mécanisme de spécialisation de l'émergence.

Voir le PDF

Made with Slashpage