Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoilage des images de microscopie optique avec adaptation de flux conditionnel guidée : trouver le juste milieu entre fidélité et réalisme

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Affiner-POI : Renforcement des modèles linguistiques volumineux affinés pour la recommandation du prochain point d'intérêt

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

Compréhension de Potemkine dans les grands modèles linguistiques

OmniEval : une référence pour l'évaluation des modèles omnimodaux avec des entrées visuelles, auditives et textuelles

Comment récupérer des exemples dans l'apprentissage en contexte pour améliorer la reconnaissance des émotions conversationnelles à l'aide de grands modèles linguistiques ?

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Classification des dialectes arabes à l'aide de réseaux de neurones rénaux (RNN), de transformateurs et de grands modèles linguistiques : une analyse comparative

Améliorer l'interaction entre les étudiants et l'IA grâce à des incitations pédagogiques : un exemple dans l'enseignement de l'informatique

APERÇU : Cartographie de l'importance des couches de gradient pour l'explication de la saillance visuelle incitée pour les LVLM génératifs

ÉValuation automatique de la dépression grâce à l'apprentissage automatique : une enquête complète

Généralisation des modèles vision-langage à de nouveaux domaines : une étude approfondie

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Détection de chansons générée par l'IA via les transcriptions des paroles

KAG-Thinker : pensée interactive et raisonnement approfondi dans les LLM via la génération augmentée des connaissances

Problèmes de qualité des données dans les ensembles de données vocales multilingues : la nécessité d'une sensibilisation sociolinguistique et d'une planification linguistique proactive

Double Entendre : Détection robuste des paroles générées par l'IA et basée sur l'audio via la fusion multi-vues

Alignement de l'évaluation sur les priorités cliniques : étalonnage, décalage d'étiquette et coûts d'erreur

Optimisation des politiques sans valeur via le partitionnement des récompenses

VFEFL : Apprentissage fédéré préservant la confidentialité contre les clients malveillants via un chiffrement fonctionnel vérifiable

Activation d'un alignement précis des sujets dans les grands modèles linguistiques via des autoencodeurs clairsemés

Désapprentissage robuste du LLM avec MUDMAN : méta-désapprentissage avec masquage et normalisation des perturbations

CMI-Bench : un benchmark complet pour évaluer l'enseignement de la musique après

StepProof : vérification étape par étape des preuves mathématiques en langage naturel

Génération de molécules 3D non équivariantes évolutives via l'alignement rotationnel

Amélioration du réglage fin supervisé pour les grands modèles de langage afin d'atténuer les oublis catastrophiques

SLED : un cadre de décodage LLM spéculatif pour un service de périphérie efficace

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

VeriLoC : Prédiction au niveau de la ligne de code de la qualité de la conception matérielle à partir du code Verilog

Autonomie multicouche et écologies de l'IA dans les installations artistiques robotiques

Relier la qualité d'expérience subjective et objective : agrégation au niveau de l'opérateur à l'aide de l'analyse des commentaires basée sur LLM et de la comparaison des MOS du réseau

Informatique quantique et intelligence artificielle : état des lieux et perspectives

Affiner les modèles autorégressifs visuels de nouvelle génération avec l'optimisation des politiques relatives aux groupes

Une architecture de contrôle basée sur un modèle de langage volumineux pour l'exploration dynamique des capacités des ressources dans les systèmes de fabrication multi-agents

Spotlight-TTS : mise en valeur du style grâce à l'extraction de style sensible à la voix et à l'ajustement de la direction du style pour une synthèse vocale expressive

WeatherEdit : Édition météo contrôlable avec champ gaussien 4D

De l'alignement à l'avancement : amorcer l'alignement audio-langage avec des données synthétiques

Optimisation des erreurs : surmonter la décroissance exponentielle du signal dans les réseaux de codage prédictif profond

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Amélioration vidéo basée sur des réseaux antagonistes génératifs à super-résolution

Détection d'objets dans des conditions météorologiques défavorables pour les véhicules autonomes à l'aide d'Instruct Pix2Pix

APERÇU : Combler le fossé entre élèves et enseignants à l'ère des grands modèles linguistiques

SConU : Incertitude conforme sélective dans les grands modèles linguistiques

MetaSynth : échafaudages agentiques pilotés par méta-invite pour la génération de données synthétiques diversifiées

Sculpter la mémoire : oubli multi-concepts dans les modèles de diffusion via un masque dynamique et une optimisation tenant compte des concepts

Atteindre le poids binaire et l'activation pour les LLM à l'aide de la quantification post-formation

Une critique conséquentialiste des pratiques d'évaluation de la classification binaire

Redéfinir les normes d'évaluation : un cadre unifié pour évaluer les capacités des modèles linguistiques coréens

Raisonnement au moment du test grâce aux préférences visuelles humaines avec des VLM et des récompenses souples

FedMM-X : Un cadre fiable et interprétable pour l'apprentissage multimodal fédéré dans des environnements dynamiques

Automatisation de l'évaluation des événements cardiovasculaires à l'aide de grands modèles linguistiques

ATTENTION2D : Mécanisme d'auto-attention distribuée efficace en communication

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Time-R1 : Modèle de langage de vision large post-formation pour l'ancrage vidéo temporel

Alignement de l'éthique de la confidentialité dans l'IA : un cadre centré sur les parties prenantes pour une IA éthique

Caractérisation de la résilience du GPU et de son impact sur les systèmes IA/HPC

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

Le problème des a priori ou des postérieurs ?

Gumiho : une architecture hybride pour prioriser les premiers jetons dans le décodage spéculatif

Perturber la fusion des modèles : une défense au niveau des paramètres sans sacrifier la précision

Que peuvent faire les grands modèles linguistiques pour une alimentation durable ?

Un nombre suffisant de lancers de pièces peut inciter les LLM à agir de manière bayésienne

Comment déplacer votre dragon : synthèse de texte en mouvement pour les objets à vocabulaire étendu

Time-MQA : Réponses multitâches à des questions chronologiques avec amélioration du contexte

PipeOffload : amélioration de l'évolutivité du parallélisme des pipelines grâce à l'optimisation de la mémoire

Graphiques spatio-temporels d'ensembles convexes pour la planification de mouvements multi-robots

HalCECE : un cadre pour la détection explicable des hallucinations grâce à des contrefactuels conceptuels dans les légendes d'images

LNUCB-TA : Apprentissage hybride linéaire-non linéaire avec attention temporelle

Bien sûr que non ! Les mécanismes de refus peuvent être exploités grâce à des données de réglage fin inoffensives.

ÉTude de l'impact des méthodes de quantification sur la sécurité et la fiabilité des grands modèles linguistiques

ÉValuation LLM basée sur la génération augmentée de récupération pour l'inférence de machine à états de protocole avec raisonnement par chaîne de pensée

Un modèle de langage général pour l'identification des peptides

Regrouper et prédire les patchs latents pour une modélisation améliorée des images masquées

Streaming vidéo adaptatif et sémantique utilisant des modèles de diffusion latente pour les réseaux sans fil

KMI : un ensemble de données de dialogues d'entretiens motivationnels coréens pour la psychothérapie

Interprétabilité mécaniste de l'inférence des émotions dans les grands modèles linguistiques

Tokeniseur de codes médicaux multimodaux

Il est temps de repenser l'IA pour l'optimisation combinatoire : les algorithmes classiques restent difficiles à égaler

Planification simultanée de mouvements multi-robots avec modèles de diffusion projetés

Calibrage extrinsèque de caméra LiDAR en ligne basé sur l'environnement

Devinez-moi ceci ! Inférence d'appartenance furtive pour la génération augmentée par récupération

DReSS : rationalisation structurée et régularisée basée sur les données pour les grands modèles linguistiques

Vers un apprentissage auto-supervisé automatisé pour une détection d'anomalies de graphes véritablement non supervisée

Allocation adaptative des rangs pour un réglage fin efficace des paramètres fédérés des modèles de langage

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Une enquête sur les variations saisonnières des prévisions énergétiques pour les résidences étudiantes

Servir efficacement les grands modèles multimodaux grâce à la désagrégation EPD

PRMBench : une référence précise et exigeante pour les modèles de récompense au niveau des processus

AlignGuard : alignement de sécurité évolutif pour la génération de texte en image

Une bibliothèque pour l'apprentissage des opérateurs neuronaux

ZipAR : Génération d'images autorégressives parallèles via la localité spatiale

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

SEUF : Désapprendre un expert suffit-il pour les LLM composés d'un mélange d'experts ?

Systèmes de recommandation pour le bien commun (RS4Good) : étude de cas et appel à l'action pour une recherche pertinente

Modèles fondamentaux pour les données de mouvement portables dans la recherche en santé mentale

GenBFA : une approche d'optimisation évolutive pour les attaques par retournement de bits sur les LLM

Amélioration de l'échantillonnage postérieur par diffusion pour les problèmes inverses en intégrant des mesures élaborées

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

Created by

Haebom

Auteur

Sizhe Dang, Yangyang Guo, Yanjun Zhao, Haishan Ye, Xiaodong Zheng, Guang Dai, Ivor Tsang

Contour

Dans cet article, nous proposons un nouvel algorithme d'optimisation d'ordre zéro (ZO), FZOO, pour résoudre le goulot d'étranglement de la mémoire GPU qui survient lors du réglage fin des grands modèles de langage (LLM). Alors que l'algorithme d'optimisation ZO existant, MeZO, nécessite de nombreuses passes avant pour converger, FZOO réduit considérablement le nombre de passes avant grâce à l'estimation unilatérale par lots, l'adaptation de la taille des pas basée sur l'écart type, la perturbation vectorielle aléatoire Rademacher et le traitement parallèle CUDA. Les résultats expérimentaux sur divers modèles et 11 tâches, dont RoBERTa-large, OPT, Phi-2 et Llama3, montrent que FZOO améliore la précision de 3 % en moyenne tout en réduisant le nombre de passes avant de 3 fois par rapport à MeZO. Dans RoBERTa-large, il obtient une amélioration de la précision de 5,6 % et une réduction de 18 fois du nombre de passes avant, affichant une vitesse de convergence similaire à celle d'Adam. De plus, nous prouvons théoriquement l'équivalence formelle et la garantie de convergence avec la règle de mise à jour SGD régularisée, et permettons de plus grandes économies de mémoire grâce à une intégration transparente avec la technique PEFT.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une solution efficace au problème du réglage fin du modèle de langage à grande échelle, qui est difficile en raison des contraintes de mémoire du GPU.

◦

Surmonte les limitations (vitesse de convergence lente) des algorithmes d'optimisation d'ordre zéro existants et atteint une vitesse de convergence similaire à celle d'Adam.

◦

Démonstration de la faisabilité d'un réglage fin à grande vitesse et à paramètres complets à l'aide d'un seul GPU.

◦

Présentation de nouvelles directions de recherche pour un pré-entraînement efficace en mémoire.

◦

Potentiel d’économies de mémoire supplémentaires grâce à l’intégration avec la technique PEFT.

•

Limitations:

◦

Une validation supplémentaire est nécessaire pour déterminer si les résultats expérimentaux présentés dans cet article peuvent être généralisés à tous les LLM et tâches.

◦

Une étude comparative plus complète avec d’autres algorithmes d’optimisation est nécessaire.

◦

Des extensions supplémentaires et des recherches approfondies sur l’analyse théorique sont nécessaires.

Voir le PDF

Made with Slashpage