Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transfert de structure : un calcul basé sur l'inférence pour la transformation des représentations

Ensemble de modèles de base de pathologie pour MIDOG 2025, piste 2 : Classification de la mitose atypique

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.

DaMoC : Sélection efficace du modèle de langage optimal pour affiner les tâches du domaine en fonction de la compression des données et du modèle

Techniques modulaires pour la génération de données synthétiques à contexte long dans l'apprentissage et l'évaluation de modèles de langage

EZhouNet : un cadre basé sur un réseau neuronal graphique et un intervalle d'ancrage pour la détection d'événements sonores respiratoires

AImoclips : une référence pour évaluer la transmission des émotions dans la conversion de texte en musique

TimeCopilot

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

ÉTude pilote sur l'IA générative et la pensée critique dans les classes de l'enseignement supérieur

Beacon : Quantification post-formation avec sélection de grille intégrée

L’intelligence artificielle est-elle en train de remodeler le paysage de la communauté académique internationale des géosciences ?

Attention vectorisée avec codage apprenable pour Quantum Transformer

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

MultiGen : Générateur de discours multilingue adapté aux enfants avec LLM

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Le langage de schéma conceptuel KG-ER

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

TriCLIP-3D : un cadre unifié et efficace en termes de paramètres pour la mise à la terre visuelle 3D trimodale basée sur CLIP

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Une analyse des méthodes de différence temporelle de valeur d'action qui apprennent les valeurs d'état

Décomposition des paramètres stochastiques

Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

ÉValuation de l'efficacité du raisonnement basé sur LLM pour la planification de tâches HPC multi-objectifs

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Optimisation de la transférabilité des modules en super-résolution d'image unique : évaluation de l'universalité et blocs résiduels de cycle

Transformateur de masque transférable : segmentation sémantique inter-domaines avec estimation de la transférabilité adaptative à la région

RBT4DNN : Tests basés sur les exigences des réseaux neuronaux

Apprentissage par imitation hors ligne robuste grâce à l'assemblage de trajectoires au niveau de l'état

Au-delà de l'holographie : les fondements de la gravité quantique entropique du traitement d'images

KNighter : Transformer l'analyse statique avec des vérificateurs synthétisés par LLM

FRIDA à la rescousse ! Analyse de l'efficacité des données synthétiques dans le raisonnement de bon sens basé sur les objets pour la réponse aux catastrophes.

CoDiff : modèle de diffusion conditionnelle pour la détection collaborative d'objets 3D

Apprentissage rapide des mots grâce à l'apprentissage méta-contextuel

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Un modèle de fondation basé sur une image naturelle ultra-large est-il supérieur à un modèle spécifique à la rétine pour détecter les maladies oculaires et systémiques ?

Score des valeurs aberrantes basé sur l'histogramme étendu (EHBOS)

ÉTude de la génération augmentée de graphiques pour les modèles de langage personnalisés de grande taille

Briser le goulot d'étranglement contextuel sur les prévisions de séries chronologiques longues

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Apprentissage expérientiel basé sur Kolb pour agents généralistes avec des performances scientifiques de niveau humain avec Kaggle

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux grâce à une théorie fondée sur des preuves

Formation robuste de modèles génératifs implicites pour les distributions multivariées et à queue lourde avec une perte statistique invariante

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

AutoPETIII : La frontière du Tracer. Quelle frontière ?

Réseau à séquences d'entrée longues pour la prévision de séries chronologiques longues

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

Unisolver : Transformateurs conditionnels d'EDP vers des solveurs neuronaux universels d'EDP

MTP : une abstraction de langage typée par le sens pour la programmation intégrée à l'IA

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Transfert de style vers les bandes dessinées Calvin et Hobbes à l'aide de Stable Diffusion

Autonomisation, pas automatisation : activités et besoins des vérificateurs de faits européens comme base pour la conception de systèmes d'IA centrés sur l'humain

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Extension de FKG.in : vers un réseau de traçabilité des allégations alimentaires

DeepVIS : relier le langage naturel et la visualisation des données grâce au raisonnement par étapes

Théorie de l'esprit utilisant l'inférence active : un cadre pour la coopération multi-agents

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Axiomatique des choix restreints par ordres linéaires d'ensembles avec minimum comme solution de repli

Invite guidée par DMN : un cadre pour contrôler le comportement LLM

Bases informatiques de la prise de décision en simulation sociale au LLM

La science à travers les langues : évaluation de la traduction multilingue d'articles scientifiques dans le cadre d'un master en droit

Amélioration de FKG.in : automatisation de l'analyse de la composition des aliments indiens

WASP : une approche pondération-espace pour détecter les faussetés apprises

Modèle de croyance transférable sur les circuits quantiques

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

(Ir)rationalité en IA : état de l'art, défis de recherche et questions ouvertes

Manuel de renseignement

ChronoGraph : un ensemble de données chronologiques multivariées basé sur des graphiques du monde réel

Activations Delta : une représentation pour les modèles de langage volumineux affinés

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Pas de pensées, juste de l'IA : les recommandations biaisées des LLM limitent l'intervention humaine dans la sélection des CV

IPA : un cadre de projection d'entrée préservant l'information pour une adaptation efficace du modèle de fondation

SSGaussian : transfert de style 3D sensible à la sémantique et préservant la structure

Prévision de la disponibilité du stationnement via la fusion de données multi-sources avec un transformateur inversé spatio-temporel amélioré par apprentissage auto-supervisé

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

De l'éditeur à l'estimateur de géométrie dense

Apprentissage de la représentation d'entités découplées pour le classement des publicités Pinterest

Les faits s'estompent rapidement : évaluation de la mémorisation des connaissances médicales obsolètes dans de grands modèles linguistiques

HumAine-Chatbot : IA conversationnelle personnalisée en temps réel via l'apprentissage par renforcement

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

Une étude empirique des vulnérabilités dans les packages Python et leur détection

Combien de patients pourrions-nous sauver avec des antécédents de LLM ?

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

MAGneT : Génération multi-agents coordonnée de séances synthétiques de conseil en santé mentale à plusieurs tours

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Ensemble YOLO pour la détection multispectrale des défauts dans les composants des éoliennes par drone

L'attention comme filtre adaptatif

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Amélioration de la recherche de documents techniques pour RAG

Attribution basée sur l'intégration (LEA) : quantification des contributions de la source à la réponse du modèle génératif pour l'analyse de la vulnérabilité

Created by

Haebom

Auteur

Reza Fayyazi, Michael Zuzak, Shanchieh Jay Yang

Contour

Cet article aborde les problèmes de fiabilité et de sécurité des modèles linguistiques à grande échelle (LLM), de plus en plus utilisés dans l'analyse des menaces de cybersécurité. Avec plus de 21 000 vulnérabilités révélées rien qu'en 2025, l'analyse manuelle est impossible, et un support IA évolutif et vérifiable est crucial. Les LLM peinent à traiter les vulnérabilités émergentes en raison des limites de leurs données d'entraînement. La génération augmentée par récupération (RAG) peut atténuer ces limites en fournissant des informations à jour, mais on ignore encore dans quelle mesure les LLM s'appuient sur les informations récupérées et si celles-ci sont pertinentes et exactes. Cette incertitude peut induire en erreur les analystes de sécurité, entraînant une priorisation incorrecte des correctifs et une augmentation des risques de sécurité. Par conséquent, cet article propose l'attribution basée sur l'intégration des LLM (LEA) pour analyser les réponses générées en vue de l'analyse de l'exploitation des vulnérabilités. L'LEA quantifie les contributions relatives des connaissances internes et du contenu récupéré dans la réponse générée. À l'aide de trois LLM de pointe, nous avons évalué LEA dans trois configurations RAG (valide, générique et incorrecte) par rapport à 500 vulnérabilités critiques révélées entre 2016 et 2025. Les résultats démontrent que LEA peut détecter des différences nettes entre les scénarios de non-découverte, génériques et de découverte valide avec une précision de plus de 95 % sur un modèle à grande échelle. Enfin, nous démontrons les limites de la récupération d'informations de vulnérabilité erronées et mettons en garde la communauté de la cybersécurité contre une confiance aveugle dans LLM et RAG pour l'analyse des vulnérabilités. LEA fournit aux analystes de sécurité des indicateurs pour auditer le flux de travail RAG amélioré, améliorant ainsi le déploiement transparent et fiable de l'IA dans l'analyse des menaces de cybersécurité.

Takeaways, Limitations

•

Takeaways:

◦

L'attribution basée sur l'intégration LLM (LEA) présente une méthode permettant d'augmenter la fiabilité en analysant quantitativement la contribution des connaissances internes et des informations récupérées dans les réponses LLM basées sur RAG.

◦

Nous validons expérimentalement le RAG avec une précision élevée de plus de 95 % et démontrons qu'il peut détecter la récupération d'informations erronées.

◦

Fournit des lignes directrices pratiques pour un déploiement transparent et fiable de l’IA dans l’analyse des menaces de cybersécurité.

•

Limitations:

◦

Il est impossible d’éliminer complètement la possibilité d’erreurs dues à une récupération d’informations incorrecte.

◦

Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’ensemble de données de vulnérabilité de 500 utilisé dans l’évaluation.

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation de LEA à divers systèmes LLM et RAG.

Voir le PDF

Made with Slashpage