[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

ÉValuation automatisée de la nouveauté des articles universitaires : une approche collaborative intégrant les connaissances humaines et les modèles de langage à grande échelle

« Est-il toujours à l'écoute ? » Exploration des préoccupations contextuelles en matière de confidentialité et de sécurité des robots sociaux domestiques

Une analyse théorique des groupes des symétries sous-jacentes à l'addition de base et de leur apprentissage par les réseaux neuronaux

GHPO : Guidage adaptatif pour un apprentissage par renforcement LLM stable et efficace

Extension OL-MDISF : Apprentissage en ligne à partir de fonctionnalités de streaming mixtes, dérivées et incomplètes

Quand et où les poisons de données attaquent-ils l’inversion textuelle ?

Détective de la vérité et briseur de tendances : des agents d'IA pour vérifier les faits des vidéos YouTube et influencer les opinions

Le traitement du langage naturel à la rencontre du monde : vers une amélioration des échanges avec le public sur la recherche en traitement du langage naturel

Génération précise des états de transition des réactions chimiques par correspondance de flux conditionnelle

Analyse comparative et évaluation des modèles d'IA en biologie : résultats et recommandations de l'atelier sur les cellules virtuelles du CZI

Un cadre PBN-RL-XAI pour la découverte d'une stratégie thérapeutique « hit-and-run » dans le mélanome

NeuTSFlow : Modélisation des fonctions continues derrière la prévision des séries chronologiques

THOR : Heuristiques de transformateur pour la récupération à la demande

Vers un RAG agentique avec raisonnement profond : un aperçu des systèmes de raisonnement RAG dans les LLM

Relier la littérature et l'univers grâce à un système multi-agents à grand modèle linguistique

Modélisation magnétoradiative et optimisation par réseau neuronal artificiel de l'écoulement de biofluides dans un domaine artériel sténosé

Symbiose : inférence multi-adaptateur et réglage fin

Repenser la protection des données à l'ère de l'intelligence artificielle (générative)

SoK : Confidentialité sémantique dans les grands modèles linguistiques

FedRef : Réglage fin bayésien efficace en communication avec un modèle de référence

ÉChelle prévisible : Partie II, Farseer : une loi d'échelle affinée dans les grands modèles de langage

Apprentissage auto-supervisé de prédiction de position pour la segmentation sémantique d'images satellites multimodales

ScaleRTL : mise à l'échelle des LLM avec des données de raisonnement et des calculs au moment des tests pour une génération précise de code RTL

HueManity : étude de la perception visuelle fine dans les MLLM

AKReF : Un cadre de représentation des connaissances argumentatives pour une argumentation structurée

Les grands modèles de langage savent souvent quand ils sont évalués

ÉValuations dynamiques des risques pour les agents de cybersécurité offensifs

Quelle est la consommation d'IA ? Analyse comparative de l'énergie, de l'eau et de l'empreinte carbone de l'inférence LLM

Responsabilité diffuse : analyse de la consommation énergétique des modèles de diffusion générative de texte en audio

Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne

Sur la nécessité d'une base statistique pour les tests de véhicules autonomes basés sur des scénarios

Qu'est-ce qui tire les ficelles ? Évaluation de l'intégrité et de l'attribution dans l'entraînement et l'inférence de l'IA par changement de concept

TD-EVAL : Revisiter l'évaluation du dialogue orientée vers la tâche en combinant la précision au niveau du tour avec les comparaisons au niveau du dialogue

MobileCity : un cadre efficace pour la simulation du comportement urbain à grande échelle

Adaptateur sémantique pour l'intégration de texte universel : diagnostiquer et atténuer la cécité à la négation pour améliorer l'universalité

Exploiter les LLM pour les récits d'utilisateurs dans les systèmes d'IA : ensemble de données UStAI

Les grands modèles linguistiques ne sont pas fiables pour la cyber-renseignement sur les menaces

Ensemble de données AnnoPage : ensemble de données d'éléments non textuels dans des documents avec catégorisation fine

Une évaluation approfondie de l'impact des données non IID sur l'apprentissage fédéré

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

FADE : Pourquoi de mauvaises descriptions se produisent dans de bonnes fonctionnalités

FlipConcept : Personnalisation multi-concepts sans réglage pour la génération de texte en image

LUMINA-Net : Amélioration des conditions de faible luminosité grâce à un réseau d'éclairage et d'adaptation au bruit à plusieurs niveaux pour l'amélioration des images

Vers des générations de LLM ancrées dans la géoculture

Apprendre à raisonner à la frontière de l'apprenabilité

Décodage flexible et efficace avec contraintes grammaticales

PATCH : une méthode d'apprentissage profond pour évaluer l'hétérogénéité des pratiques artistiques dans les peintures historiques

L'impact de l'IA moderne sur la gestion des métadonnées

Apprentissage d'un modèle efficace de récupération de prémisses pour une formalisation mathématique efficace

ChipAlign : alignement des instructions dans les grands modèles de langage pour la conception de puces via l'interpolation géodésique

De nombreux problèmes objectifs où le croisement est manifestement essentiel

Patheria : détection et classification cellulaires pour les années 2020

ViTally Consistent : Adaptation de l'apprentissage des représentations biologiques à la microscopie cellulaire

TextDestroyer : une méthode de diffusion sans formation ni annotation pour détruire le texte anormal des images

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux modernes grâce à une théorie fondée sur des preuves

Modèles de fondation biomédicale multi-vues pour la prédiction des molécules-cibles et des propriétés

Planification de trajectoire imitative renforcée pour la conduite automatisée urbaine

Distiller des représentations invariantes avec une double augmentation

Aborder le corpus d'abstraction et de raisonnement avec les transformateurs de vision : l'importance de la représentation 2D, des positions et des objets

Modèles d'intégration de concepts interprétables linéairement pour l'analyse de texte

Vers une compréhension de la généralisabilité des prédicteurs de liens sous les changements de distribution

StreakNet-Arch : une architecture réseau anti-diffusion pour l'imagerie radar LiDAR sous-marine

Renforcer la confiance dans les agents autonomes : une architecture pour la responsabilité et l'explicabilité grâce à la blockchain et aux grands modèles linguistiques

Sur les propriétés statistiques des modèles antagonistes génératifs pour les données à faible dimension intrinsèque

Programmation de processus collectifs distribués dans le calcul d'échange

Analyse holistique de la durabilité de l'apprentissage fédéré tout au long du cycle de vie des produits d'IA

Introduction mathématique à l'apprentissage profond : méthodes, implémentations et théorie

Epic-Sounds : un ensemble de données à grande échelle d'actions sonores

Du Web sémantique et MAS à l'IA agentique : un récit unifié du Web des agents

Sur la sémantique graduelle pour l'argumentation basée sur les hypothèses

Le défi d'enseigner le raisonnement aux étudiants en LLM sans apprentissage à distance ni distillation

Agrégation de classification continue

La difficulté rapide peut-elle être prédite en ligne pour accélérer le réglage fin des modèles de raisonnement par RL ?

MacOSWorld : une référence interactive multilingue pour les agents d'interface utilisateur graphique

GeoChain : Chaîne de pensées multimodale pour le raisonnement géographique

Perdu dans la transmission : quand et pourquoi les LLM échouent à raisonner à l'échelle mondiale

Un aperçu des frontières du raisonnement LLM : mise à l'échelle des inférences, apprentissage du raisonnement et systèmes agentiques

Système 0/1/2/3 : Théorie des processus quadruples pour les systèmes cognitifs collectifs incarnés à échelles de temps multiples

Principes pratiques pour la comptabilité analytique et informatique de l'IA

Communication émergente générative : le modèle de langage large est un modèle de monde collectif

Agents proactifs pour la génération multi-tours de texte en image en situation d'incertitude

Apprentissage des modèles STRIPS levés à partir des traces d'action seules : une solution simple, générale et évolutive

Désintoxication des hallucinations : perte de sensibilité (SenD) pour l'entraînement au modèle de langage à grande échelle

La vie trouve son chemin : l'hyperadaptabilité par la recherche comportementale

Gouvernance de l'intelligence artificielle générative pour les entreprises

RACER : Modèle de suivi de voiture à intelligence artificielle rationnelle amélioré par la réalité

Gouvernance de l'intelligence artificielle pour les entreprises

Interprétation de l'intention du radiologue à partir des mouvements oculaires dans le diagnostic radiographique thoracique X

S2WTM : Autoencodeur Wasserstein sphérique en tranches pour la modélisation de sujets

La synthèse de configuration basée sur LLM nécessite une désambiguïsation

Caractérisation des performances du modèle d'espace d'état (SSM) et du modèle de langage hybride SSM-Transformer avec une longueur de contexte longue

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Pouvons-nous prédire l'alignement avant que les modèles aient terminé leur réflexion ? Vers la surveillance des modèles de raisonnement désalignés

Segmentation tissulaire histopathologique basée sur l'unité via une représentation de caractéristiques à plusieurs niveaux

Amélioration de la génération augmentée de récupération pour les données d'entreprise structurées et internes

Mélange d'experts en Raytracing

QuRe : Récupération pertinente pour les requêtes grâce à l'échantillonnage négatif dur dans la récupération d'images composées

AutoVDC : nettoyage automatisé des données de vision à l'aide de modèles vision-langage

Perdu dans la transmission : quand et pourquoi les LLM échouent à raisonner à l'échelle mondiale

Created by

Haebom

Auteur

Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan, Jennifer Neville

Contour

Cet article explique pourquoi les modèles de langage à grande échelle (LLM) basés sur Transformer rencontrent des difficultés avec les tâches nécessitant une inférence complexe sur une grande partie de l'entrée, en raison de leur capacité limitée de transfert d'attention. À cette fin, nous présentons le modèle BAPO (Bounded Attention Prefix Oracle), un nouveau cadre de calcul qui modélise les contraintes de bande passante de la tête d'attention, le mécanisme de communication interne des LLM. Nous montrons que d'importants problèmes d'inférence, tels que l'accessibilité des graphes, nécessitent une bande passante de communication élevée pour résoudre les BAPO, et nous définissons ces problèmes comme des problèmes BAPO-difficiles. Des expériences corroborent nos prédictions théoriques en montrant que GPT-4o, Claude et Gemini réussissent sur des tâches BAPO-faciles, mais échouent sur des tâches BAPO-difficiles relativement petites. Nous démontrons également que la décomposition de tâches à l'aide du CoT (CoT) peut transformer n'importe quel problème BAPO-difficile en un problème BAPO-facile, révélant un autre avantage du CoT. En conclusion, cet article fournit une explication raisonnée des principaux échecs des LLM et suggère des orientations pour les architectures et les méthodes d'inférence qui atténuent les contraintes de bande passante.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouveau cadre théorique (BAPO) qui explique la cause du déclin de la capacité d'inférence du LLM en raison de la bande passante limitée du mécanisme d'attention.

◦

Nous analysons systématiquement les limitations de performance de LLM en distinguant les problèmes BAPO-difficiles et BAPO-faciles.

◦

L'effet de la chaîne de pensée (CoT) est expliqué théoriquement par le modèle BAPO.

◦

Présentation de nouvelles orientations pour améliorer l'architecture LLM et les méthodes d'inférence.

•

Limitations:

◦

Le modèle BAPO est un modèle simplifié et peut ne pas refléter entièrement la complexité d’un véritable LLM.

◦

L'expérience était limitée à un LLM spécifique et à un type de problème spécifique, nécessitant des recherches supplémentaires sur la généralisabilité.

◦

Il existe un manque d'architectures spécifiques ou de méthodes de raisonnement pour résoudre les problèmes BAPO-difficiles.

Voir le PDF

Made with Slashpage