Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Autonomie par conception : préserver l'autonomie humaine dans l'aide à la décision de l'IA

Adaptez votre corps : atténuer les changements de proprioception dans l'apprentissage par imitation

L'impact de l'IA sur l'évaluation pédagogique : un cadre pour un alignement constructif

ZonUI-3B : un modèle vision-langage léger pour la mise à la terre d'interfaces graphiques multi-résolutions

Décodeur pipeline pour une génération de texte efficace et sensible au contexte

Score modulé en flux pour la complétion du graphe de connaissances sémantique

Rapport technique Ovis-U1

Contre la culture du « softmaxing »

Réflexion récompensée par l'auditeur dans les VLM pour les préférences d'image

Au-delà du code : les impacts multidimensionnels des grands modèles de langage dans le développement logiciel

Production et compréhension de textes par l'intelligence humaine et artificielle : rapport d'atelier interdisciplinaire

Interaction transparente : modélisation du mouvement audiovisuel dyadique et ensemble de données à grande échelle

Red Teaming pour l'IA générative : rapport sur un exercice axé sur le droit d'auteur réalisé dans un centre médical universitaire

HyperCLOVA X THINK Rapport technique

Dévoilage des images de microscopie optique avec adaptation de flux conditionnel guidée : trouver le juste milieu entre fidélité et réalisme

Réseaux bayésiens semi-paramétriques binnés

ComRAG : Génération augmentée par récupération avec des magasins de vecteurs dynamiques pour répondre aux questions communautaires en temps réel dans l'industrie

Génération et personnalisation des trajectoires de bras robotiques à l'aide de réseaux neuronaux

AirV2X : collaboration unifiée entre véhicules air-sol et tout

Les modèles linguistiques pourraient ne pas vous comprendre : évaluation de la théorie de l'esprit via l'incitation à raconter des histoires

Analyse comparative des connaissances pédagogiques des grands modèles linguistiques

CARTS : Agents collaboratifs pour la synthèse textuelle des recommandations

Interaction LLM préservant la confidentialité avec le raisonnement socratique en chaîne de pensée et les bases de données vectorielles cryptées de manière homomorphe

ÉTude et amélioration de l'estimation de motifs basée sur les réseaux neuronaux graphiques

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Libérer les modèles de diffusion et d'espace d'état pour la segmentation des images médicales

Une méthode minimaliste pour affiner les modèles de diffusion texte-image

Au-delà de l'attention ou de la similarité : maximiser la diversité conditionnelle pour l'élagage des jetons dans les MLLM

Rendre un pipeline prêt pour la production : défis et enseignements tirés dans le domaine de la santé

Méthode d'entropie croisée guidée par le centroïde de Bregman

EACGM : traçage des performances non instrumenté et détection des anomalies pour les systèmes d'apprentissage automatique

Apprendre à partir de vidéos pour le monde 3D : améliorer les MLLM avec les priors de géométrie de vision 3D

ÉVitez l'oubli en préservant les gradients de connaissances mondiaux dans l'apprentissage fédéré avec des données non IID

MLR-Bench : évaluation des agents d'IA dans le cadre de recherches ouvertes sur l'apprentissage automatique

ÉLagage structuré en deux étapes basé sur la régularisation pour les LLM

Des jetons aux pensées : comment les LLM et les humains échangent la compression contre du sens

Découverte de mBad ! : Mise au point supervisée pour une détoxification interlinguistique

AudioTrust : analyse comparative de la fiabilité multiforme des modèles de langage audio à grande échelle

ÉValuation des grands modèles de langage basés sur le raisonnement et le GPT sur les problèmes des Olympiades de physique : surpasser les performances humaines et implications pour l'évaluation pédagogique

Llama-Nemotron : modèles de raisonnement efficaces

T2I-R1 : Renforcer la génération d'images avec un CoT collaboratif au niveau sémantique et au niveau des jetons

Une évaluation des LLM et de Google Translate pour la traduction de certaines langues indiennes via des analyses de sentiment et de sémantique

ResearchBench : Analyse comparative des LLM en découverte scientifique via la décomposition des tâches basée sur l'inspiration

RLCAD : Formation par renforcement pour la génération de séquences de commandes CAO impliquant Revolution

CoCMT : Transformateur intermodal efficace en communication pour une perception collaborative

Atténuation des hallucinations dans les modèles de détection d'objets basés sur YOLO : un retour sur la détection hors distribution

SAGE : Piloter la génération de dialogues avec une augmentation de l'état-action tenant compte du futur

Inférence conforme sous des décalages de covariables de grande dimension via la régularisation du rapport de vraisemblance

La malédiction de la profondeur dans les grands modèles linguistiques

Position : Les Machina Sapiens émergents appellent à repenser les paradigmes multi-agents

La vie cachée des jetons : réduire l'hallucination des grands modèles vision-langage grâce au pilotage de l'information visuelle

Vers un apprentissage par renforcement contextuel à grande échelle par méta-formation dans des mondes aléatoires

Accélération de l'apprentissage par renforcement quantique grâce à une approche basée sur le gradient de politique naturelle quantique

Modèle de cohérence de représentation robuste via le débruitage contrastif

Segmentation sémantique semi-supervisée pour les images de télédétection via la cohérence d'incertitude multi-échelle et l'attention croisée enseignant-élève

ÉTude des erreurs de conversion texte-SQL basées sur l'apprentissage contextuel

ÉTablir des bases de référence pour la découverte générative de cristaux inorganiques

Un cadre de construction automatique de graphes basé sur de grands modèles de langage pour la recommandation

SMoLoRA : explorer et défier le double oubli catastrophique dans le réglage continu des instructions visuelles

Stylisation de tête 3D préservant l'identité avec distillation de partition multivue

De l'holistique au localisé : adaptateurs locaux améliorés pour un réglage précis de l'instruction visuelle efficace

VideoCogQA : une référence contrôlable pour l'évaluation des capacités cognitives dans les modèles de langage vidéo

SPGD : Optimisation de la descente du gradient perturbé le plus raide

Vers une pertinence de recherche compétitive pour les récupérateurs clairsemés appris sans inférence

ÉValuation des techniques de déduplication pour les titres d'articles de recherche économique en mettant l'accent sur la similarité sémantique à l'aide du traitement du langage naturel (NLP) et des LLM

Les réseaux neuronaux généralisent sur des données de faible complexité

Transformers from Diffusion : un cadre unifié pour la transmission de messages neuronaux

Estimation de la confiance d'un modèle de langage volumineux via un accès en boîte noire

StreakNet-Arch : une architecture réseau anti-diffusion pour l'imagerie radar LiDAR sous-marine

Réseau neuronal convolutif lagrangien entièrement différentiable pour la prévision immédiate des précipitations basée sur la physique

Quantification de l'analogie des concepts via des logs et des schémas de câblage

Réalisme en action : diagnostic des tumeurs cérébrales tenant compte des anomalies à partir d'images médicales à l'aide de YOLOv8 et de DeiT

Identifier la vérité du modèle global : une solution générique pour se défendre contre les attaques byzantines et les attaques par porte dérobée dans l'apprentissage fédéré (version complète)

Hypothèse de l'ADN poubelle : l'élagage des petits poids pré-entraînés altère de manière irréversible et monotone les tâches « difficiles » en aval des LLM

Contrôlabilité améliorée des modèles de diffusion via des méthodes de démêlage des caractéristiques et d'échantillonnage à réalisme amélioré

Géométrie sémantique quasi symbolique sur auto-encodeur variationnel basé sur un transformateur

SPIRAL : Le jeu autonome sur des jeux à somme nulle encourage le raisonnement via l'apprentissage par renforcement multi-agents et multi-tours

ChemActor : Amélioration de l'extraction automatisée des actions de synthèse chimique grâce aux données générées par LLM

Hecto : Experts modulaires épars pour un raisonnement adaptatif et interprétable

Relier les principes éthiques et les méthodes algorithmiques : une approche alternative pour évaluer la fiabilité des systèmes d'IA

Benchmark automatisé de speedrunning LLM : reproduction des améliorations NanoGPT

Systèmes d'IA à inférence active pour la découverte scientifique

Consensus de Singapour sur les priorités mondiales de recherche en matière de sécurité de l'IA

Cadre conceptuel vers une intelligence adaptative collective incarnée

Programme d'équations : idées pour résoudre des problèmes d'algèbre

SwarmThinkers : apprentissage de transitions KMC atomiques physiquement cohérentes à grande échelle

MMMR : Analyse comparative des tâches de raisonnement multimodal massif

Matériel libre et équitable : une voie vers la génération Verilog sans violation du droit d'auteur grâce aux LLM

Résolution itérative des ambiguïtés d'invite à l'aide d'une approche de recherche de coupe progressive

OM4OV : Exploiter la correspondance d'ontologies pour le contrôle des versions d'ontologies

Flexora : adaptation flexible de bas rang pour les grands modèles de langage

Conquérir les fantômes : apprentissage relationnel pour une représentation fiable de l'information et une navigation robuste de bout en bout

GLM-4.1V-Pensée : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Description du processus d'apprentissage des réseaux neuronaux via le théorème ergodique : nœuds fantômes

SciArena : une plateforme d'évaluation ouverte pour les modèles fondamentaux dans la littérature scientifique

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

Le raisonnement comme défense adaptative pour la sécurité

Champs de rayonnement neural chirurgical à partir d'une image

MambAttention : Mamba avec attention multi-têtes pour une amélioration généralisable de la parole monocanal

Des phrases aux séquences : repenser les langages dans les systèmes biologiques

EnvInjection : attaque par injection d'invite environnementale sur des agents Web multimodaux

Created by

Haebom

Auteur

Xilong Wang, John Bloch, Zedian Shao, Yuepeng Hu, Shuyan Zhou, Neil Zhenqiang Gong

Contour

Dans cet article, nous proposons EnvInjection, une nouvelle technique d'attaque contre les agents web basés sur un modèle de langage multimodal à grande échelle (MLLM). EnvInjection modifie le code source d'une page web pour inciter l'agent web à effectuer une action spécifique (action cible) souhaitée par l'attaquant en modifiant les valeurs de pixels brutes de la page web affichée. Pour surmonter la difficulté de la correspondance entre les valeurs de pixels brutes et les captures d'écran, nous entraînons un réseau neuronal qui approxime la correspondance et applique la descente de gradient projetée pour résoudre le problème d'optimisation. Des évaluations approfondies sur plusieurs ensembles de données de pages web montrent qu'EnvInjection est bien plus efficace que les techniques existantes.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une nouvelle technique appelée EnvInjection qui attaque efficacement les vulnérabilités des agents Web basés sur MLLM.

◦

Résout les problèmes d’efficacité, de furtivité et d’applicabilité pratique, qui constituent les limites des attaques existantes.

◦

Résolvez efficacement le problème de non-différenciabilité du mappage des valeurs de pixels brutes aux captures d'écran à l'aide de l'approximation du réseau neuronal et de la descente de gradient projetée.

◦

Démontre des performances supérieures aux techniques existantes sur divers ensembles de données de pages Web.

•

Limitations:

◦

Cela peut ne pas s'appliquer à toutes les pages Web car cela nécessite de modifier le code source de la page Web (restrictions d'accès, etc.).

◦

La formation d’un réseau neuronal peut nécessiter des ressources informatiques et du temps.

◦

Le taux de réussite d’une attaque peut varier en fonction de la conception spécifique de l’agent Web et des caractéristiques de la page Web.

◦

À Long terme, il est possible que des techniques de défense soient développées contre les techniques d’attaque présentées dans cet article.

Voir le PDF

Made with Slashpage