Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VeOmni : Adaptation de la formation à n'importe quel modèle de modalité avec un zoo de recettes distribué centré sur le modèle

Dynaword : du one-shot aux jeux de données développés en continu

Prévision : Quand prévoir ? Accélération des modèles de diffusion avec la méthode de Taylor basée sur la confiance

Proof2Hybrid : synthèse automatique de référence mathématique pour les problèmes centrés sur la preuve

Chaîne d'agents collaborative pour la synergie des connaissances récupérées par paramètres

BlockA2A : Vers une interopérabilité agent-agent sécurisée et vérifiable

SpectrumWorld : Fondation d'intelligence artificielle pour la spectroscopie

Gestion de l'escalade dans les modèles de langage volumineux prêts à l'emploi

FGBench : un ensemble de données et une référence pour le raisonnement sur les propriétés moléculaires au niveau des groupes fonctionnels dans les grands modèles de langage

Cartographie Schema.org fondamentale pour un graphe de connaissances juridiques : représentation des normes juridiques brésiliennes sous forme d'œuvres FRBR

D3 : Détection vidéo générée par l'IA sans formation à l'aide de caractéristiques de second ordre

SMART-Editor : un framework multi-agents pour une édition de conception de type humain avec intégrité structurelle

Fusion vision-langage pour la conduite autonome en temps réel : attention croisée centrée sur l'objectif de la caméra, de la carte HD et des points de cheminement

MoCHA : Raisonnement vision-langage avancé avec connecteur MoE et attention de groupe hiérarchique

Améliorez la distillation auto-supervisée des ensembles de données via la paramétrisation, l'augmentation prédéfinie et l'approximation

Mémorisation dans les grands modèles linguistiques affinés

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

Le Xeno Sutra : peut-on attribuer un sens et une valeur à un texte « sacré » généré par l’IA ?

Apprentissage post-achèvement pour les modèles linguistiques

Rainbow Noise : Test de résistance des détecteurs multimodaux de mèmes nocifs sur les contenus LGBTQ

Préhension volumétrique équivariante

SemiSegECG : une référence multi-ensembles de données pour la segmentation sémantique semi-supervisée dans la délimitation d'ECG

FedSA-GCL : un framework d'apprentissage de graphes fédérés semi-asynchrone avec agrégation personnalisée et diffusion sensible aux clusters

Des taux d'apprentissage élevés permettent simultanément d'obtenir une robustesse aux corrélations parasites et une compressibilité

R-Stitch : assemblage dynamique de trajectoires pour un raisonnement efficace

P3SL : Apprentissage fractionné personnalisé préservant la confidentialité sur des appareils périphériques hétérogènes

Document Haystack : une vision multimodale de compréhension d'images/documents à long contexte, référence LLM

Regroupement de graphes évolutifs à attributs manquants via la différenciation de voisinage

TaylorPODA : une méthode basée sur l'expansion de Taylor pour améliorer les attributions post-hoc pour les modèles opaques

Diviser puis régner : un interpolateur hiérarchique piloté par cluster pour les graphes à attributs manquants

$\Texttt{Droid}$ : une suite de ressources pour la détection de code généré par l'IA

Raisonnement ou mémorisation ? Résultats peu fiables de l'apprentissage par renforcement en raison de la contamination des données.

Fondements de principe pour l'optimisation des préférences

ÉValuation des LLM sur les prévisions du monde réel par rapport aux prévisionnistes experts

STRUCTSENSE : un cadre agentique indépendant des tâches pour l'extraction d'informations structurées avec évaluation et analyse comparative en temps réel

S2FGL : Apprentissage spatial et spectral de graphes fédérés

AI4Research : une étude sur l'intelligence artificielle pour la recherche scientifique

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Simulation de trafic à long terme avec mouvement autorégressif entrelacé et génération de scénarios

Renforcer les VLM pour utiliser des outils de raisonnement visuel détaillé sous contraintes de ressources

Diffusion causalement dirigée pour la génération automatisée de contrefactuels vidéo

Qu'est-ce qui fait un bon générateur de mots pour la génération de discours centrée sur le LLM ? Une étude systématique

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

ProRefine : Affinement des invites d'inférence avec retour textuel

SALAD : Évaluation systématique du désapprentissage automatique dans la conception matérielle assistée par LLM

MetaGen Blended RAG : Débloquer la précision zéro coup pour les questions-réponses dans des domaines spécialisés

Vers la révélation de l'efficacité du réglage fin à petite échelle dans l'apprentissage par renforcement de type R1

LightRetriever : une architecture de récupération hybride basée sur LLM avec une inférence de requête 1 000 fois plus rapide

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Exploiter les modèles vision-langage pour l'ancrage visuel et l'analyse de l'interface utilisateur automobile

Intégration temporelle entièrement optique médiée par des antennes thermiques sub-longueur d'onde

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

FFCBA : attaques de porte dérobée à étiquette propre et à cible complète basées sur les fonctionnalités

Biais de performance multilingue des grands modèles linguistiques en éducation

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Reconstruire les trajectoires du sepsis à partir de rapports de cas cliniques à l'aide de LLM : le corpus de séries chronologiques textuelles sur le sepsis

Formation efficace de modèles génératifs via l'échauffement de représentations intégrées

Déroulement profond bayésien piloté par l'attention graphique pour l'imagerie lidar monophotonique à double pic

Recherche d'architecture spectrale pour les modèles de réseaux neuronaux

Améliorer la correspondance stéréo omnidirectionnelle avec un modèle de base de profondeur pré-entraîné

ADS-Edit : un ensemble de données d'édition de connaissances multimodales pour les systèmes de conduite autonome

Correspondance des scores potentiels : élimination des biais lors de l'échantillonnage de structures moléculaires avec guidage par énergie potentielle

Apprentissage d'ensemble pour les grands modèles de langage dans la génération de texte et de code : une enquête

Apprentissage augmenté des déclencheurs adverses

ETCH : Généralisation de l'ajustement corporel aux humains vêtus via l'étanchéité équivariante

M2S : jailbreak multi-tours vers un seul tour en Red Teaming pour les LLM

Un cadre causal pour aligner les mesures de qualité d'image et la robustesse des réseaux neuronaux profonds

PennyLang : génération de code quantique basée sur LLM avec un nouvel ensemble de données centré sur PennyLang

DexGraspVLA : un cadre vision-langage-action pour une compréhension adroite générale

Entropy-Lens : la signature informationnelle des calculs de transformateurs

CAMEF : Prévisions financières multimodales causales augmentées et pilotées par événements, intégrant des modèles de séries chronologiques et des annonces macroéconomiques importantes

Façonner des récompenses éparses dans l'apprentissage par renforcement : une approche semi-supervisée

AdaMCoT : Repenser le raisonnement factuel interlinguistique grâce à une chaîne de pensée multilingue adaptative

Positionnement sans fil piloté par l'IA : principes fondamentaux, normes, état de l'art et défis

CHIRP : une référence précise pour l'évaluation des réponses ouvertes dans les modèles vision-langage

Acteur-critique doux à récompense moyenne

Une vidéo vaut mille images : exploration des dernières tendances en matière de création de vidéos longues

Du texte à la trajectoire : exploration de la représentation et de la décomposition de contraintes complexes dans l'apprentissage par renforcement sûr

Parler à DINO : relier les piliers de la vision auto-supervisée au langage pour une segmentation du vocabulaire ouvert

SANDWICH : Vers un substitut de traçage de rayons neuronaux sans fil, hors ligne, différentiable et entièrement entraînable

IDÉATEUR : Jailbreaking et benchmarking de grands modèles vision-langage en les utilisant eux-mêmes

Cobblestone : une approche « diviser pour mieux régner » pour automatiser la vérification formelle

Contraction efficace des croyances lors de l'assemblée générale annuelle : un voyage au-delà du royaume finitaire (rapport technique)

Au-delà des images : fusion adaptative de données visuelles et textuelles pour la classification des aliments

TAPAS : Dérivation rapide et automatique de stratégies parallèles de tenseurs pour les grands réseaux neuronaux

KCR : Résoudre les conflits de connaissances à long contexte grâce au raisonnement dans les LLM

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

CADDesigner : conception de modèles CAO basés sur un agent polyvalent

Attention à l'écart : la divergence entre les tâches humaines et celles générées par le LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Maximisation douce basée sur un modèle de mesures appropriées de la puissance humaine à long terme

Tiny-BioMoE : un modèle d'intégration léger pour l'analyse des biosignaux

Système de réécriture des termes AlphaPhysics pour la notation des expressions algébriques aux examens de physique

Modélisation de la logique modale déontique dans le système de programmation par ensemble de prédicats et de réponses orienté vers les objectifs s(CASP)

Optimisation automatique des invites pour la construction de graphes de connaissances : enseignements tirés d'une étude empirique

La théorie de la conscience cognitive unifiée pour les modèles de langage : sémantique d'ancrage, seuils d'activation et raisonnement émergent

Raisonnement abductif basé sur la cohérence sur les erreurs de perception de plusieurs modèles pré-entraînés dans de nouveaux environnements

Améliorer la résilience des systèmes d'IA : formulation et garantie de la résilience LSTM basée sur la théorie du contrôle

UFEval : évaluation unifiée à granularité fine avec généralisation des tâches et des aspects

Aborder la généralisation de la taille des réseaux neuronaux graphiques sur les données biologiques d'un point de vue spectral

Created by

Haebom

Auteur

Gaotang Li, Danai Koutra, Yujun Yan

Contour

Cet article aborde le défi principal du décalage de distribution induit par la taille dans les réseaux neuronaux graphes (GNN) et son impact sur la généralisation des GNN à des graphes plus grands. Les recherches existantes ont formulé des hypothèses divergentes sur le décalage de distribution, conduisant à des conclusions contradictoires quant à la généralisabilité des GNN. Cet article adopte une approche basée sur les données pour identifier et caractériser les types de décalage de distribution induits par la taille et explore leur impact sur les performances des GNN à partir d'une perspective largement inexplorée du décalage spectral. En exploitant la variance substantielle des tailles de graphes dans des ensembles de données biologiques réels, nous analysons les graphes biologiques et constatons que les différences spectrales induites par les modèles de sous-graphes (par exemple, la longueur moyenne du cycle) sont plus importantes et fortement corrélées aux performances des GNN sur des graphes invisibles. Sur la base de ces connaissances, nous proposons trois stratégies indépendantes du modèle pour améliorer la reconnaissance par les GNN des modèles de sous-graphes importants, et nous constatons que l'attention intensive à la taille est l'approche la plus efficace. Grâce à des expériences approfondies utilisant six architectures GNN et sept stratégies indépendantes du modèle sur cinq ensembles de données, nous démontrons que la stratégie d'attention intensive en taille proposée améliore considérablement la classification des graphes sur des graphes de test qui sont 2 à 10 fois plus grands que le graphe d'entraînement, améliorant les scores F1 jusqu'à 8 % par rapport aux lignes de base solides.

Takeaways, Limitations

•

Takeaways:

◦

La cause de la dégradation des performances du GNN due aux changements de taille du graphique a été identifiée par corrélation avec les changements des caractéristiques spectrales, en particulier les modèles de sous-graphes.

◦

Nous présentons une stratégie efficace indépendante du modèle pour améliorer les performances de généralisation de la taille des GNN grâce à un mécanisme d'attention intensif en taille.

◦

La stratégie proposée démontre systématiquement des améliorations de performances sur diverses architectures et ensembles de données GNN.

•

Limitations:

◦

L'analyse s'est limitée aux données de graphes biologiques. Une vérification plus approfondie de la généralisabilité aux données de graphes dans d'autres domaines est nécessaire.

◦

Le mécanisme d'attention, très gourmand en taille, proposé pourrait augmenter les coûts de calcul. Des recherches supplémentaires sont nécessaires pour développer des stratégies de mise en œuvre efficaces.

◦

Des recherches supplémentaires sont nécessaires pour déterminer l’impact de facteurs autres que les modèles de sous-graphes sur les performances de généralisation de la taille des GNN.

Voir le PDF

Made with Slashpage