Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SACL : Comprendre et combattre les biais textuels dans la recherche de code grâce au reclassement et à la localisation sémantiquement augmentés

Vers des schémas de libération de poids de modèles prouvables (non)sécurisés

Graphique de scène sémantique pour l'explication des images échographiques et le guidage de l'analyse

Ensemble de données IndieFake : un ensemble de données de référence pour la détection des deepfakes audio

Ce ne sont pas toutes les fonctionnalités que vous recherchez : un goulot d'étranglement fondamental dans la préformation supervisée

Les stratégies d'apprentissage contextuel émergent de manière rationnelle

Faites semblant jusqu'à y arriver : la modélisation des récompenses comme prédiction discriminante

Prétraitement sémantique pour l'analyse des logiciels malveillants basée sur LLM

PCDVQ : amélioration de la quantification vectorielle pour les grands modèles linguistiques via le découplage des coordonnées polaires

TracLLM : un cadre générique pour l'attribution de LLM à contexte long

TaxaDiffusion : modèle de diffusion progressivement formé pour la génération d'espèces à granularité fine

Correspondance de flux composite pour l'apprentissage par renforcement avec des données de dynamique décalée

Explicabilité des grands modèles linguistiques à l'aide de SMILE : interprétabilité statistique indépendante du modèle avec explications locales

Thinkless : LLM apprend quand réfléchir

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

Correspondance énergétique : unification de la correspondance des flux et des modèles énergétiques pour la modélisation générative

Analyse des sentiments basée sur l'IA : optimiser la valeur commerciale dans le secteur du commerce électronique

Vers une optimisation adaptative basée sur la mémoire pour une récupération améliorée et une génération augmentée

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Les LLM seront-ils des professionnels de l'investissement en fonds ? DeepFund : une perspective en direct

Révéler les représentations neuronales d'ordre supérieur de l'incertitude avec le modèle d'estimation du bruit par diffusion basée sur le renforcement (NERD)

Zero-TIG : amélioration vidéo en basse lumière guidée par l'éclairage Zero-Shot, tenant compte de la cohérence temporelle

PP-DocBee : Améliorer la compréhension des documents multimodaux grâce à un ensemble d'astuces

CREStE : Navigation évolutive sans mappage avec priori d'échelle Internet et guidage contrefactuel

Marchés avec agents hétérogènes : dynamique et survie des apprenants bayésiens et sans regret

Décodage spéculatif guidé par la récompense pour un raisonnement LLM efficace

UP-VLA : un modèle unifié de compréhension et de prédiction pour les agents incarnés

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Matérialiste : Édition basée sur la physique à l'aide du rendu inverse d'une seule image

Apprentissage de la représentation des valeurs de laboratoire via des auto-encodeurs masqués

Politique d'indice lagrangien pour les bandits agités avec récompense moyenne

SIDA : Détection, localisation et explication des deepfakes d'images sur les réseaux sociaux avec un grand modèle multimodal

InfiniCube : Génération de scènes de conduite 3D dynamiques, illimitées et contrôlables, avec des modèles vidéo guidés par le monde

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

MvKeTR : Génération de rapports de tomodensitométrie thoracique avec perception multi-vues et amélioration des connaissances

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

ToolScan : une référence pour caractériser les erreurs dans les LLM d'utilisation d'outils

Rappel et raffinement : un cadre d'adaptation de domaine ouvert, simple mais efficace et sans source

InterFormer : Apprentissage interactif hétérogène efficace pour la prédiction du taux de clics

Encourager les phonèmes : améliorer le multilinguisme des LLM pour les langues non latines

Vision par ordinateur avancée pour extraire des trajectoires de véhicules géoréférencées à partir d'images de drones

Calibrage rapide du gyroscope : une approche d'apprentissage profond

HERMES : compréhension temporelle-cohérente à long terme avec épisodes et sémantique

Une architecture EXCELLENTE pour les problèmes de graphes basés sur les bords comme TSP

ClimateIQA : un nouvel ensemble de données et une nouvelle référence pour faire progresser les modèles vision-langage dans l'analyse des anomalies météorologiques

MockLLM : un cadre de collaboration comportementale multi-agents pour la recherche d'emploi et le recrutement en ligne

Mes données sont-elles dans votre modèle d'IA ? Test d'inférence d'appartenance avec application aux images faciales

PuriDefense : purification antagoniste implicite locale aléatoire pour la défense contre les attaques basées sur des requêtes de type boîte noire

L'apprentissage continu comme apprentissage par renforcement contraint par le calcul

Génération d'images efficace avec des têtes d'attention variadique

Services de transport et de livraison intelligents avec véhicules électriques : tirer parti de la recharge bidirectionnelle pour optimiser les profits

Des souvenirs aux cartes : mécanismes d'apprentissage par renforcement contextuel chez Transformers

Les graphiques rencontrent les agents d'IA : taxonomie, progrès et opportunités futures

Apprivoiser l'indompté : récupération de connaissances et raisonnement basés sur des graphes pour les MLLM afin de conquérir l'inconnu

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

Méthode Doppelganger : rupture de la cohérence des rôles dans l'agent LLM via une attaque antagoniste transférable basée sur des invites

Metis-RISE : le RL incite et le SFT améliore l'apprentissage par modèle de raisonnement multimodal

Diffusion rapide d'arbres de Monte-Carlo : accélération 100 fois supérieure grâce à la planification parallèle clairsemée

NFISiS : Nouvelles perspectives sur les systèmes d'inférence floue pour la prévision des énergies renouvelables

L'état des grands modèles linguistiques pour les langues africaines : progrès et défis

Structurer le non structuré : un système multi-agents pour extraire et interroger les indicateurs clés de performance (KPI) et les orientations financières

Super co-alignement pour une société symbiotique durable

Améliorer la coordination homme-IA grâce à la formation contradictoire en ligne et aux modèles génératifs

Plateforme WiS : Améliorer l'évaluation des systèmes multi-agents basés sur LLM grâce à l'analyse basée sur les jeux

Révision de l'apprentissage : validation concrète de l'apprentissage continu préservant la confidentialité dans les établissements médicaux

Prédiction vidéo égocentrique conditionnée par le corps entier

MTSBench : analyse comparative de la détection d'anomalies de séries chronologiques multivariées et de la sélection de modèles à grande échelle

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

WorldVLA : Vers un modèle mondial d'action autorégressive

« Quoi de neuf, docteur ? » : Analyse de la façon dont les utilisateurs recherchent des informations de santé dans des ensembles de données d'IA conversationnelle à grande échelle

Compréhension de Potemkine dans les grands modèles linguistiques

SkLEP : un référentiel de compréhension générale de la langue slovaque

Modélisation et simulation basées sur l'exploration de processus pour améliorer le diagnostic des pannes dans les systèmes cyber-physiques

TITAN : Apprentissage adaptatif et contradictoire basé sur des jetons de requête

SmoothSinger : un modèle de diffusion conditionnelle pour la synthèse vocale avec une architecture multi-résolution

Optimisation des méthodes Runge-Kutta d'ordre 4 : une approche heuristique dynamique pour l'efficacité et un faible stockage

Masters de compétences en leadership (LML) basés sur la connaissance du domaine pour la détection des fraudes et des dérives conceptuelles

Adaptation bayésienne évolutive de bas rang de grands modèles de langage via l'inférence de sous-espace variationnel stochastique

Exploiter LLM - Compréhension assistée des requêtes pour une récupération en direct - Génération augmentée

Réseau d'attention graphique sensible au temps pour la détection des fraudes aux transactions de cryptomonnaie

Faites attention aux petits poids

Recommandations de produits personnalisées et en temps réel pour les grandes plateformes de commerce électronique

RQdia : régularisation des distributions de valeurs Q par augmentation d'image

CA-I2P : réseau d'enregistrement adaptatif aux canaux avec sélection optimale globale

Une revue systématique de la co-créativité homme-IA

Reconnaissance holistique des phases chirurgicales avec modèles d'espace d'état dépendant des entrées hiérarchiques

Sur l'approximation polynomiale profonde pondérée uniforme

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Détection d'expressions référentes dans un dialogue visuellement fondé avec des modèles de langage autorégressifs

Les petits encodeurs peuvent rivaliser avec les grands décodeurs pour détecter la mise à la terre

Autoencodeurs variationnels hypersphériques utilisant une distribution de Cauchy sphérique efficace

Intégration des données acoustiques des véhicules pour une meilleure gestion du trafic urbain : une étude sur la classification de la vitesse à Suzhou

DiLoCoX : un cadre de formation à grande échelle et à faible communication pour les clusters décentralisés

Agent-RewardBench : Vers une référence unifiée pour la modélisation des récompenses en termes de perception, de planification et de sécurité chez les agents multimodaux du monde réel

De la blockchain à la macroéconomie : évaluer l'importance de la diversité des sources de données dans les prévisions du marché des cryptomonnaies

$T^3$ : Réparation automatique de programmes basée sur des arbres multi-niveaux avec de grands modèles de langage

BitMark pour Infinity : Filigranage de modèles génératifs d'images autorégressives au niveau du bit

Compression KV sensible aux tâches pour une compréhension rentable des vidéos longues

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

Created by

Haebom

Auteur

Advik Raj Basani, Xiao Zhang

Contour

Dans cet article, nous présentons Generative Adversarial Suffix Prompter (GASP), un nouveau framework automatisé pour les attaques de jailbreak qui contournent les protections des modèles de langage à grande échelle (LLM) et induisent des réponses néfastes. Pour surmonter les limites des méthodes manuelles existantes ou des attaques basées sur l'optimisation (difficulté de généralisation, génération d'invites artificielle, coût de calcul élevé), GASP génère des invites de jailbreak lisibles par l'homme en utilisant l'optimisation bayésienne latente, qui explore efficacement l'espace d'inclusion latent continu. Il améliore l'efficacité de l'attaque tout en maintenant la cohérence des invites grâce à une procédure d'amélioration itérative orientée vers les objectifs. Les résultats expérimentaux montrent que GASP est une solution efficace et évolutive qui améliore le taux de réussite du jailbreak et réduit le temps d'apprentissage et la vitesse d'inférence par rapport aux méthodes existantes.

Takeaways, Limitations

•

Takeaways:

◦

Fournir un cadre d'attaque de jailbreak automatisé efficace et évolutif pour évaluer et renforcer la sécurité des LLM.

◦

Résoudre les problèmes de faible performance de généralisation, de génération d'invite non naturelle et de coût de calcul élevé des méthodes existantes Limitations.

◦

Identifiez efficacement les vulnérabilités dans LLM en générant des invites de jailbreak naturelles et lisibles par l'homme.

•

Limitations:

◦

Les performances de GASP peuvent varier en fonction de l'implémentation spécifique du LLM et du filtre de sécurité utilisé.

◦

En raison de la complexité de l’optimisation bayésienne latente, son application peut être difficile dans des environnements aux ressources informatiques limitées.

◦

Les performances ne peuvent pas être garanties dans un environnement de boîte noire parfait (une certaine connaissance du fonctionnement interne du LLM peut être requise).

Made with Slashpage