[공지사항]을 빙자한 안부와 근황

Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Code latent discret compositionnel pour modèles de diffusion productive haute fidélité

Code MERA : un cadre unifié pour évaluer la génération de code entre les tâches

Réglage fin au niveau du site avec congélation progressive des couches : vers une prédiction fiable de la dysplasie bronchopulmonaire à partir des radiographies thoraciques du premier jour chez les nourrissons extrêmement prématurés

Une feuille de route pour la recherche en robotique adaptée au climat

L'équité ne suffit pas : audit des compétences et des biais intersectionnels dans la sélection des CV par l'IA

MMOne : Représentation de plusieurs modalités dans une même scène

SWE-MERA : une référence dynamique pour l'évaluation agentique de grands modèles de langage dans les tâches d'ingénierie logicielle

CodeAssistBench (CAB) : Ensemble de données et analyse comparative pour l'assistance au code multi-tours basée sur le chat

Couture de modèles de fondation en modalité (presque) libre

Une méthode de segmentation des tumeurs cérébrales basée sur CLIP et 3D U-Net avec guidage sémantique intermodal et fusion de caractéristiques multi-niveaux

KEN : Réseau d'augmentation des connaissances et de guidage des émotions pour la détection multimodale de fausses nouvelles

THOR : Heuristiques de transformateur pour la récupération à la demande

SEALGuard : protection des conversations multilingues en langues d'Asie du Sud-Est pour les systèmes logiciels LLM

KeyRe-ID : réidentification de personne guidée par points clés à l'aide d'une représentation consciente des parties dans les vidéos

Les perturbations rapides révèlent des biais semblables à ceux des humains dans les réponses aux enquêtes LLM

Gemini 2.5 : repousser les limites grâce au raisonnement avancé, à la multimodalité, au contexte long et aux capacités agentiques de nouvelle génération

Téléopération bilatérale rapide et apprentissage par imitation à l'aide d'un contrôle de force sans capteur via un modèle dynamique précis

Distillation d'ensembles de données génératives spécifiques à une tâche avec échantillonnage guidé par la difficulté

VIDÉO : Décomposition visuelle et interactive, exécution et évaluation de l'analyse de texte avec des agents intelligents

ReCode : Mise à jour des connaissances sur l'API de code grâce à l'apprentissage par renforcement

Découverte de concepts discrets inter-couches pour l'interprétation des modèles de langage

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

MEM1 : Apprendre à associer mémoire et raisonnement pour des agents efficaces à long terme

Formation basée sur la population à fréquences multiples

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Affiner un SLM ou susciter un LLM ? Le cas de la génération de workflows low-code.

ContextQFormer : une nouvelle méthode de modélisation contextuelle pour les conversations multimodales à plusieurs tours

La portabilité des performances du GPU nécessite un réglage automatique

Génération de données synthétiques via des augmentations pour une meilleure ressemblance faciale dans DreamBooth et InstantID

Protocole Coral : une infrastructure ouverte connectant l'Internet des agents

MAC-Tuning : Raisonnement multi-compositionnel LLM avec une meilleure connaissance des limites des connaissances

Apprentissage fédéré : une enquête sur l'intelligence collaborative préservant la confidentialité

ConTextual : Améliorer la synthèse des textes cliniques dans les LLM grâce au filtrage des jetons préservant le contexte et aux graphes de connaissances

Quantification des circuits de tâches : Exploiter la localisation et l'interprétabilité des connaissances pour la compression

JailDAM : Détection de jailbreak avec mémoire adaptative pour le modèle vision-langage

Réseaux de neurones quantiques KP

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Réseau d'opérateurs profonds à haut rendement en données pour les écoulements instables : une approche multi-fidélité avec sous-échantillonnage guidé par la physique

Apprentissage des modèles universels de mobilité humaine avec un modèle de base pour la fusion de données interdomaines

GeoFlow-SLAM : un SLAM robuste et étroitement couplé combinant la fusion de l'odométrie inertielle et à pattes RGBD pour la robotique dynamique à pattes

Un cadre multi-étapes avec raisonnement guidé par la taxonomie pour la classification des professions à l'aide de grands modèles linguistiques

ÉLagage des nœuds multi-vues pour une représentation graphique précise

V-Max : un cadre d'apprentissage par renforcement pour la conduite autonome

Transformation interprétable et analyse des chronologies par l'apprentissage par la surprisabilité

Indice d'évaluation international de la gouvernance de l'IA (Indice AGILE) 2024

UPCORE : Sélection de coresets préservant l'utilité pour un désapprentissage équilibré

Améliorer les modèles Transformer World pour un RL efficace en termes de données

LLM-RecG : un cadre de recommandation séquentielle à zéro coup tenant compte des biais sémantiques

SIDA : adaptation dynamique du domaine SInkhorn pour la classification d'images avec des réseaux neuronaux équivariants

Détermination des décalages photométriques vers le rouge des galaxies à l'aide de réseaux antagonistes génératifs conditionnels (CGAN)

Analyse médico-légale de la parole : vers l'établissement et l'analyse d'un ensemble complet de données synthétiques sur la parole

MRGen : moteur de données de segmentation pour les modalités d'IRM sous-représentées

IOPO : Donner aux LLM les moyens de suivre des instructions complexes grâce à l'optimisation des préférences d'entrée-sortie

Récupération hors distribution avec politique inverse de point clé centrée sur l'objet pour l'apprentissage par imitation visuomotrice

Ensemble de données résultant de l'étude utilisateur sur la compréhensibilité des algorithmes d'IA explicables

ÉValuation unifiée des hallucinations au niveau du triplet pour les grands modèles vision-langage

LoRA Done RITE : Équilibrage robuste des transformations invariantes pour l'optimisation LoRA

Identification des groupes de tâches pour l'apprentissage multitâche à l'aide d'informations utilisables ponctuellement

DeFine : Prise de décision par raisonnement analogique sur profils factoriels

Classification comparative des sous-genres pour la musique de danse grand public

Risques liés à l'ignorance de la propagation de l'incertitude dans les pipelines de sécurité augmentés par l'IA

MedPix 2.0 : un ensemble complet de données biomédicales multimodales pour les applications d'IA avancées avec récupération, génération augmentée et graphes de connaissances

Exploiter la superposition quantique pour déduire le comportement dynamique d'un modèle de signalisation de réseau neuronal spatio-temporel

Limiter l'erreur de pire classe : une approche par boosting

TBDetector : détecteur basé sur un transformateur pour les menaces persistantes avancées avec graphique de provenance

Systèmes d'apprentissage automatique : une étude du point de vue des données

Objectif : Vers un cadre multi-agents entièrement autonome

SmartThinker : Apprendre à compresser et à préserver le raisonnement grâce au contrôle de la longueur par étape

Ready Jurist One : Analyse comparative des agents linguistiques pour l'intelligence juridique dans des environnements dynamiques

NTRL : Génération de rencontres par apprentissage par renforcement pour un ajustement dynamique de la difficulté dans Donjons et Dragons

Juger avec plusieurs esprits : Plus de perspectives signifie-t-il moins de préjugés ? Sur l'amplification et la résistance des biais dans le LLM-as-Judge multi-agents

ActionStudio : un framework léger pour les données et la formation de modèles d'action de grande envergure

BEARCUBS : une référence pour les agents Web utilisant des ordinateurs

Démystifier la planification MuZero : interpréter le modèle appris

LLM - Interactions utilisateur-élément améliorées : Exploiter les informations Edge pour des recommandations optimisées

VidéoITG : Compréhension vidéo multimodale avec ancrage temporel instruit

VisionThink : modèle de langage visuel intelligent et efficace via l'apprentissage par renforcement

Déséquilibre dans l'équilibre : équilibrage des concepts en ligne dans les modèles de génération

Pilotage de politiques latentes avec des modèles mondiaux pré-entraînés et indépendants de l'incarnation

La formation à la vision et au langage aide à déployer les connaissances taxonomiques, mais ne les modifie pas fondamentalement

Réexamen de la fiabilité dans le benchmark d'estimation de pose basé sur le raisonnement

AbGen : Évaluation de grands modèles linguistiques dans la conception et l'évaluation d'études d'ablation pour la recherche scientifique

Vers une vérification formelle du code généré par LLM à partir d'invites en langage naturel

ÉValuation des algorithmes d'apprentissage par renforcement pour la navigation chez des quadrupèdes robotisés simulés : une étude comparative inspirée du comportement des chiens guides

Aperçu de TalentCLEF 2025 : Intelligence des compétences et des intitulés de poste pour la gestion du capital humain

QuestA : Développer la capacité de raisonnement dans les LLM grâce à l'augmentation des questions

Noyau de fusion pour l'optimisation bayésienne sur l'espace de permutation

Adaptation efficace d'un transformateur de vision pré-entraîné, soutenue par une stratégie de réglage fin approximativement orthogonale

Automatisation du pilotage pour des modèles linguistiques multimodaux sûrs et de grande taille

HATS : Ensemble de tests d'analogie hindi pour l'évaluation du raisonnement dans les grands modèles linguistiques

VITA : Politique de mise en correspondance des flux de la vision à l'action

$S^2M^2$ : Modèle de correspondance stéréo évolutif pour une estimation fiable de la profondeur

Synthétiser la réalité : exploiter la plateforme générative à IA Midparcours pour la détection des travailleurs du bâtiment

Aligner les humains et les robots grâce à l'apprentissage par renforcement à partir de commentaires humains implicites

SHIELD : un apprentissage intégré sécurisé et hautement amélioré pour une détection robuste des deepfakes contre les attaques adverses

Injection rapide 2.0 : menaces d'IA hybrides

Orbis : surmonter les défis de la prévision à long terme dans les modèles mondiaux de conduite

L'apprentissage par renforcement inverse rencontre le modèle de langage à grande échelle après la formation : bases, avancées et opportunités

JailDAM : Détection de jailbreak avec mémoire adaptative pour le modèle vision-langage

Created by

Haebom

Auteur

Yi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Contour

Dans cet article, nous proposons JAILDAM, un nouveau framework de détection d'attaques de jailbreak pour le déploiement sécurisé de modèles de langage multimodaux à grande échelle (MLLM). Pour pallier les lacunes des méthodes existantes, qui sont (1) applicables uniquement aux modèles boîte blanche, (2) coûteuses en calcul et (3) insuffisantes en données étiquetées, JAILDAM utilise une approche basée sur la mémoire avec une représentation des connaissances non sécurisées basée sur des politiques. En mettant à jour dynamiquement les connaissances non sécurisées au moment du test, JAILDAM maintient son efficacité tout en améliorant les performances de généralisation, même face à des stratégies de jailbreak non identifiées. Les résultats expérimentaux obtenus sur plusieurs benchmarks de jailbreak VLM démontrent que JAILDAM atteint des performances de pointe en termes de précision et de rapidité.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouveau framework, JAILDAM, qui améliore considérablement les performances de détection des attaques de jailbreak de MLLM.

◦

Nous proposons une méthode de détection efficace et applicable aux environnements réels, non limitée au modèle de boîte blanche.

◦

Aide à résoudre les problèmes de pénurie de données en réduisant la dépendance aux données étiquetées.

◦

Mise à jour dynamique des connaissances au moment du test pour améliorer les performances de généralisation aux nouvelles stratégies de jailbreak.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de généralisation de la méthode proposée sont durables.

◦

Une évaluation de la robustesse des différentes architectures MLLM et stratégies de jailbreaking est nécessaire.

◦

Une évaluation des performances et une vérification de la stabilité dans des environnements de service réels sont nécessaires.

Made with Slashpage