Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SACL : Comprendre et combattre les biais textuels dans la recherche de code grâce au reclassement et à la localisation sémantiquement augmentés

Vers des schémas de libération de poids de modèles prouvables (non)sécurisés

Graphique de scène sémantique pour l'explication des images échographiques et le guidage de l'analyse

Ensemble de données IndieFake : un ensemble de données de référence pour la détection des deepfakes audio

Ce ne sont pas toutes les fonctionnalités que vous recherchez : un goulot d'étranglement fondamental dans la préformation supervisée

Les stratégies d'apprentissage contextuel émergent de manière rationnelle

Faites semblant jusqu'à y arriver : la modélisation des récompenses comme prédiction discriminante

Prétraitement sémantique pour l'analyse des logiciels malveillants basée sur LLM

PCDVQ : amélioration de la quantification vectorielle pour les grands modèles linguistiques via le découplage des coordonnées polaires

TracLLM : un cadre générique pour l'attribution de LLM à contexte long

TaxaDiffusion : modèle de diffusion progressivement formé pour la génération d'espèces à granularité fine

Correspondance de flux composite pour l'apprentissage par renforcement avec des données de dynamique décalée

Explicabilité des grands modèles linguistiques à l'aide de SMILE : interprétabilité statistique indépendante du modèle avec explications locales

Thinkless : LLM apprend quand réfléchir

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

Correspondance énergétique : unification de la correspondance des flux et des modèles énergétiques pour la modélisation générative

Analyse des sentiments basée sur l'IA : optimiser la valeur commerciale dans le secteur du commerce électronique

Vers une optimisation adaptative basée sur la mémoire pour une récupération améliorée et une génération augmentée

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Les LLM seront-ils des professionnels de l'investissement en fonds ? DeepFund : une perspective en direct

Révéler les représentations neuronales d'ordre supérieur de l'incertitude avec le modèle d'estimation du bruit par diffusion basée sur le renforcement (NERD)

Zero-TIG : amélioration vidéo en basse lumière guidée par l'éclairage Zero-Shot, tenant compte de la cohérence temporelle

PP-DocBee : Améliorer la compréhension des documents multimodaux grâce à un ensemble d'astuces

CREStE : Navigation évolutive sans mappage avec priori d'échelle Internet et guidage contrefactuel

Marchés avec agents hétérogènes : dynamique et survie des apprenants bayésiens et sans regret

Décodage spéculatif guidé par la récompense pour un raisonnement LLM efficace

UP-VLA : un modèle unifié de compréhension et de prédiction pour les agents incarnés

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Matérialiste : Édition basée sur la physique à l'aide du rendu inverse d'une seule image

Apprentissage de la représentation des valeurs de laboratoire via des auto-encodeurs masqués

Politique d'indice lagrangien pour les bandits agités avec récompense moyenne

SIDA : Détection, localisation et explication des deepfakes d'images sur les réseaux sociaux avec un grand modèle multimodal

InfiniCube : Génération de scènes de conduite 3D dynamiques, illimitées et contrôlables, avec des modèles vidéo guidés par le monde

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

MvKeTR : Génération de rapports de tomodensitométrie thoracique avec perception multi-vues et amélioration des connaissances

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

ToolScan : une référence pour caractériser les erreurs dans les LLM d'utilisation d'outils

Rappel et raffinement : un cadre d'adaptation de domaine ouvert, simple mais efficace et sans source

InterFormer : Apprentissage interactif hétérogène efficace pour la prédiction du taux de clics

Encourager les phonèmes : améliorer le multilinguisme des LLM pour les langues non latines

Vision par ordinateur avancée pour extraire des trajectoires de véhicules géoréférencées à partir d'images de drones

Calibrage rapide du gyroscope : une approche d'apprentissage profond

HERMES : compréhension temporelle-cohérente à long terme avec épisodes et sémantique

Une architecture EXCELLENTE pour les problèmes de graphes basés sur les bords comme TSP

ClimateIQA : un nouvel ensemble de données et une nouvelle référence pour faire progresser les modèles vision-langage dans l'analyse des anomalies météorologiques

MockLLM : un cadre de collaboration comportementale multi-agents pour la recherche d'emploi et le recrutement en ligne

Mes données sont-elles dans votre modèle d'IA ? Test d'inférence d'appartenance avec application aux images faciales

PuriDefense : purification antagoniste implicite locale aléatoire pour la défense contre les attaques basées sur des requêtes de type boîte noire

L'apprentissage continu comme apprentissage par renforcement contraint par le calcul

Génération d'images efficace avec des têtes d'attention variadique

Services de transport et de livraison intelligents avec véhicules électriques : tirer parti de la recharge bidirectionnelle pour optimiser les profits

Des souvenirs aux cartes : mécanismes d'apprentissage par renforcement contextuel chez Transformers

Les graphiques rencontrent les agents d'IA : taxonomie, progrès et opportunités futures

Apprivoiser l'indompté : récupération de connaissances et raisonnement basés sur des graphes pour les MLLM afin de conquérir l'inconnu

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

Méthode Doppelganger : rupture de la cohérence des rôles dans l'agent LLM via une attaque antagoniste transférable basée sur des invites

Metis-RISE : le RL incite et le SFT améliore l'apprentissage par modèle de raisonnement multimodal

Diffusion rapide d'arbres de Monte-Carlo : accélération 100 fois supérieure grâce à la planification parallèle clairsemée

NFISiS : Nouvelles perspectives sur les systèmes d'inférence floue pour la prévision des énergies renouvelables

L'état des grands modèles linguistiques pour les langues africaines : progrès et défis

Structurer le non structuré : un système multi-agents pour extraire et interroger les indicateurs clés de performance (KPI) et les orientations financières

Super co-alignement pour une société symbiotique durable

Améliorer la coordination homme-IA grâce à la formation contradictoire en ligne et aux modèles génératifs

Plateforme WiS : Améliorer l'évaluation des systèmes multi-agents basés sur LLM grâce à l'analyse basée sur les jeux

Révision de l'apprentissage : validation concrète de l'apprentissage continu préservant la confidentialité dans les établissements médicaux

Prédiction vidéo égocentrique conditionnée par le corps entier

MTSBench : analyse comparative de la détection d'anomalies de séries chronologiques multivariées et de la sélection de modèles à grande échelle

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

WorldVLA : Vers un modèle mondial d'action autorégressive

« Quoi de neuf, docteur ? » : Analyse de la façon dont les utilisateurs recherchent des informations de santé dans des ensembles de données d'IA conversationnelle à grande échelle

Compréhension de Potemkine dans les grands modèles linguistiques

SkLEP : un référentiel de compréhension générale de la langue slovaque

Modélisation et simulation basées sur l'exploration de processus pour améliorer le diagnostic des pannes dans les systèmes cyber-physiques

TITAN : Apprentissage adaptatif et contradictoire basé sur des jetons de requête

SmoothSinger : un modèle de diffusion conditionnelle pour la synthèse vocale avec une architecture multi-résolution

Optimisation des méthodes Runge-Kutta d'ordre 4 : une approche heuristique dynamique pour l'efficacité et un faible stockage

Masters de compétences en leadership (LML) basés sur la connaissance du domaine pour la détection des fraudes et des dérives conceptuelles

Adaptation bayésienne évolutive de bas rang de grands modèles de langage via l'inférence de sous-espace variationnel stochastique

Exploiter LLM - Compréhension assistée des requêtes pour une récupération en direct - Génération augmentée

Réseau d'attention graphique sensible au temps pour la détection des fraudes aux transactions de cryptomonnaie

Faites attention aux petits poids

Recommandations de produits personnalisées et en temps réel pour les grandes plateformes de commerce électronique

RQdia : régularisation des distributions de valeurs Q par augmentation d'image

CA-I2P : réseau d'enregistrement adaptatif aux canaux avec sélection optimale globale

Une revue systématique de la co-créativité homme-IA

Reconnaissance holistique des phases chirurgicales avec modèles d'espace d'état dépendant des entrées hiérarchiques

Sur l'approximation polynomiale profonde pondérée uniforme

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Détection d'expressions référentes dans un dialogue visuellement fondé avec des modèles de langage autorégressifs

Les petits encodeurs peuvent rivaliser avec les grands décodeurs pour détecter la mise à la terre

Autoencodeurs variationnels hypersphériques utilisant une distribution de Cauchy sphérique efficace

Intégration des données acoustiques des véhicules pour une meilleure gestion du trafic urbain : une étude sur la classification de la vitesse à Suzhou

DiLoCoX : un cadre de formation à grande échelle et à faible communication pour les clusters décentralisés

Agent-RewardBench : Vers une référence unifiée pour la modélisation des récompenses en termes de perception, de planification et de sécurité chez les agents multimodaux du monde réel

De la blockchain à la macroéconomie : évaluer l'importance de la diversité des sources de données dans les prévisions du marché des cryptomonnaies

$T^3$ : Réparation automatique de programmes basée sur des arbres multi-niveaux avec de grands modèles de langage

BitMark pour Infinity : Filigranage de modèles génératifs d'images autorégressives au niveau du bit

Compression KV sensible aux tâches pour une compréhension rentable des vidéos longues

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Created by

Haebom

Auteur

Jeffrey TH Wong, Cheng Zhang, Xinye Cao, Pedro Gimenes, George A. Constantinides, Wayne Luk, Yiren Zhao

Contour

Dans cet article, nous proposons A³, un framework d'approximation de bas rang efficace en post-traitement pour réduire le coût de déploiement des modèles de langage à grande échelle. Pour surmonter les limites des méthodes d'approximation de bas rang existantes, qui minimisent uniquement l'erreur de sortie des couches linéaires individuelles sans tenir compte des caractéristiques structurelles du transformateur, et entraînent une surcharge de calcul supplémentaire en décomposant une grande matrice de pondération en deux petites matrices de bas rang, A³ décompose la couche Transformateur en trois composants fonctionnels : QK, OV et MLP. Il fournit une solution analytique pour réduire la taille de la dimension cachée tout en minimisant la perte fonctionnelle de chaque composant (score d'attention, sortie d'attention et erreur de sortie MLP). Cela réduit directement la taille du modèle, la taille du cache KV et les FLOP sans surcharge d'exécution, et offre une nouvelle perspective pour faire évoluer le problème d'optimisation, de l'optimisation des pertes sur une seule couche linéaire à l'amélioration des performances de bout en bout. Les résultats expérimentaux montrent qu'A³ surpasse les performances de l'état de l'art actuel (SoTA), améliorant par exemple la perplexité WikiText-2 de LLaMA 3.1-70B de 7,87 à 4,69, soit 3,18, avec le même taux de calcul et de réduction de mémoire. Il présente également diverses applications potentielles, telles que la compression du cache KV, la quantification et l'allocation de rangs mixtes.

Takeaways, Limitations

•

Takeaways:

◦

Nous surmontons les limitations des méthodes existantes en proposant une méthode d'approximation de bas rang spécialisée pour les structures de transformateurs.

◦

Réduisez la taille du modèle, la taille du cache KV et les FLOP sans surcharge d'exécution.

◦

Nous présentons une nouvelle approche d’optimisation axée sur l’amélioration des performances de bout en bout.

◦

A obtenu des performances supérieures par rapport au SoTA existant (perplexité LLaMA 3.1-70B améliorée).

◦

Large gamme d'utilisations potentielles, notamment la compression du cache KV, la quantification et l'allocation de rangs mixtes.

•

Limitations:

◦

Il manque une analyse spécifique de la complexité computationnelle de l’algorithme A³ présenté dans cet article.

◦

Une évaluation supplémentaire des performances de généralisation pour les modèles de transformateurs de différentes tailles et structures est nécessaire.

◦

Des recherches sont nécessaires pour le combiner avec d’autres techniques de compression (par exemple, l’élagage, la quantification).

Voir le PDF

Made with Slashpage