Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Optimisation des récompenses de processus autoguidées avec un avantage étape par étape redéfini pour l'apprentissage par renforcement des processus

Créer des Hanzi comme passerelles narratives : un atelier de co-création d'IA pour les migrants âgés

Acteur-critique souple distributionnel avec politique de diffusion

Skywork-Reward-V2 : Adaptation de la conservation des données de préférences grâce à la synergie homme-IA

Division rapide des modèles d'IA sur les réseaux Edge

Des phrases aux séquences : repenser les langages dans les systèmes biologiques

MTCNet : Apprentissage guidé par la cohérence du mouvement et de la topologie pour la segmentation de la valve mitrale en échographie 4D

Horus : un protocole de délégation sans confiance en cas d'incertitude

Mélange de raisonnements : apprendre aux grands modèles linguistiques à raisonner avec des stratégies adaptatives

Analyse comparative de la manipulation bimanuelle généralisable : défi de collaboration à deux bras RoboTwin lors de l'atelier MEIS CVPR 2025

Red Teaming pour l'IA générative : rapport sur un exercice axé sur le droit d'auteur réalisé dans un centre médical universitaire

AirV2X : collaboration unifiée entre véhicules air-sol et tout

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Alignement des LLM gelés par apprentissage par renforcement : une approche itérative de repondération puis d'optimisation

Distinguer l'IA prédictive et générative dans la réglementation

Un sondage, rien d'autre ? Utiliser de grands modèles linguistiques pour coder les réponses ouvertes en allemand sur la motivation.

Restauration d'images textuelles avec modèles de diffusion

Dans quelle mesure les politiques de mot de passe générées par LLM sont-elles efficaces ?

Vers une comparaison et un alignement explicables des intégrations de fonctionnalités

Empreinte digitale de modèle basée sur le gradient pour la détection de similarité LLM et la classification des familles

Renforcer l'économie intelligente à basse altitude grâce au déploiement de modèles d'IA à grande échelle

Intégration des LLM pour la simulation de mobilité urbaine complexe à grande échelle

Génération d'hypothèses de graphes causaux dynamiques en neurosciences : Exploitation des modèles factoriels génératifs de séries temporelles observées

Voyager à travers les langues : évaluation de la cohérence interlinguistique dans les LLM multimodaux

Modélisation des menaces pour l'IA : Plaidoyer pour une approche centrée sur les actifs

SoccerDiffusion : Vers un apprentissage complet du football robotisé humanoïde à partir d'enregistrements de gameplay

PAD : Fusion par découplage phase-amplitude pour la classification multimodale de la couverture terrestre

Indices de significativité pour les valeurs d'accord

Substituts transférables dans les espaces de recherche d'architecture neuronale expressive

Analyse du flux de travail du bloc opératoire préservant la confidentialité à l'aide de jumeaux numériques

Segmentation tumorale grossière à fine guidée par l'incertitude avec post-traitement tenant compte de l'anatomie

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Commander-GPT : exploiter pleinement la capacité de détection du sarcasme des grands modèles linguistiques multimodaux

Atténuation des biais basée sur la compréhension pour une segmentation CMR équitable

HAPI : un modèle pour l'apprentissage des expressions faciales des robots à partir des préférences humaines

MaizeField3D : un ensemble de données de nuage de points 3D et de modèles procéduraux de maïs cultivé en plein champ à partir d'un panel de diversité

Estimation de l'illuminant et de la direction de la lumière à l'aide de la méthode de distance de Wasserstein

Limites fondamentales de l'agrégation sécurisée hiérarchique avec association d'utilisateurs cyclique

LLM - Prédiction optimisée de l'hyperglycémie et découverte de voies de traitement comportementales à partir d'objets connectés et de l'alimentation

Diffusion de Gibbs entrelacée : génération de données discrètes continues avec contraintes implicites

EquiTabPFN : un réseau ajusté a priori équivariant à permutation cible

Réglage des circuits : une approche mécaniste pour identifier la redondance des paramètres et affiner les réseaux neuronaux

EigenLoRAx : Recyclage des adaptateurs pour trouver des sous-espaces principaux pour une adaptation et une inférence économes en ressources

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

Activation du parallélisme au niveau de la population dans la programmation génétique arborescente pour une accélération GPU complète

Paramètres vs FLOP : lois d'échelle pour une parcimonie optimale pour les modèles de langage à mélange d'experts

Quantification de l'importance de l'alignement des données dans les performances du modèle en aval

Découverte causale améliorée par technologie quantique pour un petit nombre d'échantillons

Sur les caractérisations pour la génération du langage : interaction entre hallucinations, ampleur et stabilité

Préfixe de jeton : une approche sans formation pour obtenir de meilleures incorporations de phrases à partir des LLM

COEF-VQ : Compréhension de la qualité vidéo rentable grâce à un cadre LLM multimodal en cascade

GeMID : modèles généralisables pour l'identification des appareils IoT

La tâche de prédiction du prochain jeton suppose un ordre optimal des données pour la formation LLM dans la génération de preuves

Répondre à des requêtes complexes est-il vraiment complexe ?

Navigation aérienne par vision et langage via une représentation sémantique-topo-métrique Raisonnement LLM guidé

Apprentissage par renforcement hors ligne pour l'apprentissage de la répartition pour la planification des ateliers

Reconsidérer l'efficacité énergétique des réseaux neuronaux à pointes

Exploration de l'intégration de grands modèles linguistiques dans les processus de maintenance des tests industriels

Formation préalable au guidage des mouvements de la sonde d'échocardiographie en fonction des séquences

Modèles anatomiques fondamentaux pour les IRM cérébrales

Apprendre des étiquettes bruyantes issues du crowdsourcing : une perspective de traitement du signal

Quantification des écarts intersectoriels entre groupes multiples à l'aide d'une analyse de classe latente en vue d'une plus grande équité

Se plonger dans l'écriture assistée par LLM dans les publications biomédicales grâce à un vocabulaire excédentaire

Vers une nouvelle mesure de la confiance des utilisateurs dans les systèmes XAI

ÉViter les catastrophes dans l'apprentissage en ligne en demandant de l'aide

Améliorer la robustesse de la reconnaissance d'entités nommées supervisées à distance grâce à l'apprentissage par l'enseignant conscient de l'incertitude et à l'apprentissage collaboratif entre élèves

Au-delà de l'échelle : le coefficient de diversité comme mesure de la qualité des données pour la variabilité des données en langage naturel

Apprentissage par renforcement inverse bayésien à densité de noyau

Agents d'IA incarnés : Modéliser le monde

Mind2Web 2 : Évaluation de la recherche agentique avec l'agent-juge

AI Flow : perspectives, scénarios et approches

Un cadre pour le raisonnement conditionnel dans la programmation par ensemble de réponses

L'autoformalisation à l'ère des grands modèles linguistiques : une enquête

Observabilité des processus d'IA agentique : découverte de la variabilité comportementale

Rapport sur l'indice d'intelligence artificielle 2025

MAPS : Faire progresser le raisonnement multimodal dans les sciences physiques de niveau expert

XGeM : un modèle de fondation multi-invite pour la génération de données médicales multimodales

Optimisation des préférences directes à l'aide de contraintes au niveau des fonctionnalités clairsemées

Cognition non supervisée

Pré-formation et incitation en région urbaine : une approche basée sur des graphiques

Générateur de graphiques routiers : cartographie des routes sur les chantiers de construction à partir de données GPS

Point3R : Reconstruction 3D en continu avec mémoire de pointeur spatial explicite

LiteReality : Reconstruction de scènes 3D prêtes pour les graphiques à partir de numérisations RVB-D

La correspondance des réponses surpasse le choix multiple pour l'évaluation des modèles de langage

Sous-typage dans DHOL – Préimpression étendue

MOTIF : Pensée modulaire via le renforcement et le perfectionnement dans les LLM

USAD : un réseau de diffusion d'attention spatio-temporelle à augmentation de données non supervisée

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

SynapseRoute : un framework de commutation automatique d'itinéraires sur un modèle de langage à double état

Banc d'autocorrection : révéler et traiter l'angle mort de l'autocorrection dans les LLM

Analyse de scènes auditives multi-agents

Rapide et simplexe : attention 2-simpliciale dans Triton

Synthétisable par conception : un cadre guidé par rétrosynthèse pour la génération d'analogues moléculaires

Attention linéaire avec contexte global : un mécanisme d'attention multipolaire pour la vision et la physique

Premiers signes de capacités stéganographiques dans les LLM de Frontier

Meta SecAlign : un LLM de base sécurisé contre les attaques par injection rapide

FairHuman : Améliorer la qualité des mains et des visages dans la génération d'images humaines avec un délai potentiel minimal Équité dans les modèles de diffusion

APT : Formation personnalisée adaptative pour les modèles de diffusion avec données limitées

ASDA : Mécanisme d'attention différentielle par spectrogramme audio pour l'apprentissage auto-supervisé des représentations

Le raisonnement comme défense adaptative pour la sécurité

Created by

Haebom

Auteur

Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar

Contour

Cet article étudie comment le raisonnement adaptatif d'allocation de temps de test permet d'entraîner des modèles robustes aux vulnérabilités de sécurité, améliorant ainsi les performances des LLM dans des domaines faciles à vérifier, tels que les mathématiques et le code. Nous présentons une recette, $\textit{TARS}$ (Training Adaptive Reasoners for Safety), une approche d'apprentissage par renforcement (RL) qui entraîne les modèles à raisonner sur la sécurité à l'aide de signaux de récompense et de traces de processus de pensée équilibrant sécurité et achèvement des tâches. TARS intègre trois choix de conception importants : (1) une phase SFT « légère » de démarrage à chaud ; (2) un mélange d'invites nuisibles, inoffensives et ambiguës pour éviter les comportements de raccourci tels que le rejet excessif ; et (3) une fonction de récompense pour éviter la dégradation des capacités de raisonnement pendant l'entraînement. Les modèles entraînés avec TARS présentent un comportement adaptatif en consacrant davantage de ressources de calcul aux requêtes ambiguës, offrant ainsi un meilleur compromis entre sécurité et rejet. Ils distinguent également mieux les invites sûres et non sûres et offrent une plus grande robustesse face aux attaques en boîte blanche (par exemple, GCG) et en boîte noire (par exemple, PAIR). Globalement, cette étude fournit une solution efficace et ouverte pour entraîner les LLM à partir de requêtes jailbreakées et malveillantes grâce au raisonnement basé sur les invites.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une méthode efficace pour améliorer la robustesse du LLM contre les vulnérabilités de sécurité en utilisant la méthode d'inférence d'allocation informatique adaptative.

◦

$\Textit{TARS}$ présente une stratégie de formation qui équilibre la sécurité et l'achèvement des tâches grâce à des recettes.

◦

Améliorer les compromis entre sécurité et rejet grâce à une allocation adaptative des ressources de calcul pour les requêtes ambiguës.

◦

Robustesse améliorée contre les attaques de type boîte blanche et boîte noire.

◦

Capacité améliorée à distinguer les invites sûres et dangereuses.

◦

Fournit des recettes publiques pour améliorer les défenses de LLM contre le jailbreak et les requêtes malveillantes.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la recette $\textit{TARS}$ et son applicabilité à diverses architectures LLM.

◦

Difficultés dans la conception et le réglage des fonctions de récompense.

◦

Absence d’évaluation complète des différents types de vulnérabilités en matière de sécurité.

◦

Des recherches supplémentaires sont nécessaires sur les problèmes et les limites potentiels qui peuvent survenir lors de l’application dans des environnements réels.

Voir le PDF

Made with Slashpage