Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion de texte en SQL de bout en bout avec sélection d'ensembles de données : Exploiter les LLM pour la génération de requêtes adaptatives

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

LAG : Génération Logique Augmentée d'un point de vue cartésien

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

FDC-Net : Repenser l'association entre la suppression des artefacts EEG et l'informatique affective multidimensionnelle

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

RCR-Router : routage contextuel efficace et sensible aux rôles pour les systèmes LLM multi-agents avec mémoire structurée

DS$^2$Net : réseau de supervision approfondie sémantique détaillée pour la segmentation d'images médicales

LLMDistill4Ads : Utilisation d'encodeurs croisés pour extraire les signaux LLM et recommander des mots-clés aux annonceurs sur eBay

Quand les voitures ont des stéréotypes : Audit des biais démographiques dans les objets à partir de modèles texte-image

HiTeC : Apprentissage contrastif hiérarchique sur hypergraphe à attributs textuels avec augmentation sémantique

SpectrumFM : redéfinir la cognition spectrale grâce à la modélisation des fondations

Chirurgie dynamique assistée par robot avec segmentation sémantique hiérarchique incrémentale de classe

Un nouveau modèle de langage pour prédire les résultats des événements indésirables graves dans les essais cliniques à partir de leurs enregistrements prospectifs

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

ALLoyM : un modèle de langage étendu pour la prédiction du diagramme de phase des alliages

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Les modèles de la Vision Foundation sont-ils prêts pour l’enregistrement d’images médicales prêtes à l’emploi ?

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

RAPNet : un réseau neuronal convolutif adaptatif à champ réceptif pour le pansharpening

AMix-1 : une voie vers un modèle de base protéique évolutif au cours des tests

Combler le dernier kilomètre de la prédiction : améliorer la prévision des séries chronologiques grâce à la correspondance conditionnelle des flux guidés

Speckle2Self : réduction du speckle par ultrasons auto-supervisée sans données propres

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

S'attaquer aux effets dévastateurs de l'empoisonnement des données à tâche unique dans l'apprentissage continu sans exemple

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

ARAG : Génération Augmentée de Récupération Agentique pour une Recommandation Personnalisée

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

CycleDistill : Amorçage de la traduction automatique à l'aide de LLM avec distillation cyclique

Détection robuste des anomalies dans le trafic réseau : évaluation des modèles d'apprentissage automatique sur CICIDS2017

Clonage de comportement robuste via la régularisation Lipschitz globale

K-Means à noyaux multiples induits par des boules granulaires

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

MMET : un transformateur multi-entrées et multi-échelles pour une résolution efficace des EDP

Une méthode d'optimisation en deux étapes pour la détection magnétique quantique à électron unique à large portée

Transformateur de téléconnexion basé sur la physique pour les prévisions sous-saisonnières à saisonnières à l'échelle mondiale

Compromis générés par l'IA pour la formation de coalitions

MLOps avec microservices : une étude de cas sur le domaine maritime

Le gagnant remporte tout pour la prévision probabiliste multivariée des séries chronologiques

Des bonds au-delà de ce qui est visible : Raisonnement renforcé Génération augmentée pour les notes cliniques

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

HERGC : Représentation d'experts hétérogènes et complétion générative pour graphes de connaissances multimodaux

Loup-garou verbal : engagez les utilisateurs avec un cadre de jeu de loup-garou agentique verbalisé

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

CADRE : Assurance personnalisable de la disponibilité des données dans un apprentissage fédéré préservant la confidentialité

FP4 All the Way : Formation entièrement quantifiée des LLM

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Extraction de connaissances probabilistes à partir de grands modèles de langage pour la paramétrisation des réseaux bayésiens

RIDGECUT : Apprentissage du partitionnement de graphes avec anneaux et coins

Perte uniforme vs. Optimisation spécialisée : une analyse comparative de l'apprentissage multitâche

Les stratégies d’investissement financier basées sur le LLM peuvent-elles surpasser le marché à long terme ?

Une approche d'apprentissage profond multimodal pour la prédiction de la forme de la matière blanche en tractographie IRM de diffusion

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Apprentissage de la représentation multimodale des protéines hiérarchiques bidirectionnelles

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Une théorie de l'apprentissage avec une chaîne de pensée autorégressive

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

ElementaryNet : un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux de forme normale

Raisonnement collectif chez les étudiants en master : un cadre pour la validation des réponses sans vérité fondamentale

Synthèse d'images médicales optimisée par l'IA : enseignements tirés du défi MedVQA-GI avec CLIP, diffusion stable finement réglée et Dream-Booth + LoRA

Prédire la dépression lors des entretiens de sélection grâce à une collaboration interactive multi-thématique

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

MQuant : Libérer le potentiel d'inférence des grands modèles linguistiques multimodaux grâce à la quantification statique complète

Atténuer les oscillations du trafic dans les flux de trafic mixtes grâce au contrôle prédictif évolutif de Koopman profond

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

FIT-Print : Vers une vérification de la propriété du modèle résistante aux fausses déclarations via une empreinte digitale ciblée

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Rang d'Ehrenfeucht-Haussler et chaîne de pensée

WebWalker : Analyse comparative des LLM en matière de navigation Web

IA générative pour l'animation cellulaire : une enquête

Vers un Cloud intelligent et sécurisé : une défense proactive optimisée par un modèle de langage étendu

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Comprendre et atténuer la mémorisation dans les modèles génératifs via la netteté des paysages de probabilité

Piloter la personnalisation des textes scientifiques pilotée par l'IA pour le grand public

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

EfficientEQA : une approche efficace pour répondre à des questions incarnées à vocabulaire ouvert

UoMo : un modèle universel de prévision du trafic mobile pour l'optimisation des réseaux sans fil

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Ajustement in situ des modèles de faune sauvage dans les pièges photographiques compatibles avec l'IoT pour une adaptation efficace

Pré-entraînement au langage EEG pour un phénotypage clinique hautement efficace en termes d'étiquetage

Une pratique de post-formation sur Llama-3 70B avec une sélection optimale du ratio de mélange de langues supplémentaires

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

La chaîne de pensée pense toujours vite : APriCoT aide à penser lentement

Enquête sur le modèle MoErging : recyclage et routage parmi les experts spécialisés pour l'apprentissage collaboratif

Biais IA-IA : les grands modèles de langage favorisent les communications générées par de grands modèles de langage

LVBench : un benchmark de compréhension des vidéos extrêmement longues

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Verre brisé, caméras défaillantes : simulation d'échantillons contradictoires basés sur la physique pour les systèmes de conduite autonome

Surveillance de l'exécution et application de l'équité conditionnelle dans les IA génératives

Sur l'efficacité des échantillons d'abstractions et la formation de récompenses basées sur le potentiel dans l'apprentissage par renforcement

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

Created by

Haebom

Auteur

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Contour

Cet article propose Flash Systolic Array (FSA), une nouvelle architecture basée sur un tableau systolique pour une accélération efficace des modèles Transformer basés sur l'algorithme FlashAttention. Les accélérateurs existants basés sur un tableau systolique souffrent d'une faible utilisation et d'une dégradation des performances en raison de l'exécution fréquente et entrelacée des opérations de multiplication matricielle et de softmax de FlashAttention. FSA implémente un nouvel algorithme d'ordonnancement appelé SystolicAttention pour exécuter intégralement les opérations FlashAttention au sein d'un seul tableau systolique. Cela permet un chevauchement précis des opérations de multiplication matricielle et de softmax sans recourir à des unités vectorielles externes, améliorant ainsi considérablement l'utilisation du tableau. Implémenté en RTL synthétisable, FSA atteint une utilisation d'attention FLOPs/s 1,77 fois supérieure à celle d'AWS Neuron v2 et de Google TPUv5e, respectivement, avec une surcharge de surface de seulement 12 %.

Takeaways, Limitations_

•

Takeaways:

◦

En permettant l’exécution complète de l’algorithme FlashAttention dans un seul tableau systolique, nous résolvons les problèmes de dégradation des performances des architectures existantes.

◦

Un traitement parallèle efficace des opérations de multiplication de matrices et de softmax ainsi qu'une utilisation élevée du tableau ont été obtenus grâce à l'algorithme SystolicAttention.

◦

Il présente des performances nettement supérieures à celles d'AWS Neuron v2 et de Google TPUv5e, ce qui suggère la possibilité de concevoir un accélérateur matériel compétitif.

◦

Il démontre une conception économique avec une amélioration des performances élevée et une faible surcharge de surface.

•

Limitations:

◦

Les améliorations de performances de l'architecture FSA présentées dans cet article sont présentées par comparaison avec des plates-formes matérielles spécifiques (AWS Neuron v2, Google TPUv5e), de sorte que les performances sur d'autres plates-formes nécessitent une vérification supplémentaire.

◦

L’efficacité de FSA dépend fortement des performances de l’algorithme SystolicAttention, et ses performances de généralisation sur des données d’entrée de différentes tailles et formes nécessitent des recherches supplémentaires.

◦

L'analyse de l'efficacité énergétique est insuffisante. Malgré des performances élevées, la consommation d'énergie pourrait avoir augmenté.

Voir le PDF

Made with Slashpage