Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RotBench : Évaluation de modèles linguistiques multimodaux de grande taille pour l'identification de la rotation d'images

Mise à l'échelle du temps d'entrée

CRED-SQL : Amélioration de l'analyse texte-SQL des bases de données à grande échelle dans le monde réel grâce à la récupération et à l'exécution de clusters Description

STEM : Évaluation efficace des capacités relatives des LLM grâce à des échantillons de transition structurés

AdaRing : Vers une adaptation vision-langage ultra-légère via la décomposition en anneaux tensoriels inter-couches

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

MAViS : un framework multi-agents pour la narration vidéo en longues séquences

ExpVG : Étude de l'espace de conception de l'ancrage visuel dans un modèle de langage multimodal à grande échelle

MetAdv : une plateforme de tests contradictoires unifiée et interactive pour la conduite autonome

ETA : Adaptation du temps de test basée sur l'énergie pour l'achèvement en profondeur

Extension des estimateurs de profondeur monoculaires fondamentaux aux caméras fisheye avec des jetons d'étalonnage

Quand les bons sons deviennent conflictuels : jailbreaker les modèles de langage audio avec des entrées bénignes

CRINN : Apprentissage par renforcement contrastif pour la recherche approximative du plus proche voisin

Réinitialisation des poids par rapport aux unités pour maintenir la plasticité dans les réseaux neuronaux

À Chacun son truc : explorer l'intégration optimale dans RAG

La distillation des caractéristiques est le meilleur choix pour l'apprentissage fédéré à modèle hétérogène

TolerantECG : un modèle fondamental pour l'électrocardiogramme imparfait

DeepRetro : Découverte de voies rétrosynthétiques à l'aide du raisonnement LLM itératif

LoSiA : réglage fin efficace de haut niveau via la localisation et l'optimisation des sous-réseaux

Structure comme recherche : apprentissage par permutation non supervisé pour l'optimisation combinatoire

Amélioration de la sensibilité temporelle d'un grand modèle linguistique pour la recommandation avec un réglage contrefactuel

Analyse de scènes auditives multi-agents

MinD : Apprentissage d'un modèle mondial à double système pour la planification en temps réel et l'analyse des risques implicites

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Analyse comparative des modèles de séries chronologiques pré-entraînés pour la prévision des prix de l'électricité

Spore dans la nature : étude de cas de Spore.fun, une expérience d'évolution en environnement ouvert avec des agents d'IA souverains sur des blockchains sécurisées par TEE

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Restauration neuronale des défauts de verdissement dans les photographies autochromes historiques à partir de données purement synthétiques

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

Format de données commun (CDF) : un format standardisé pour les données de match de football

Les transformateurs à une couche sont prouvés comme optimaux pour le raisonnement en contexte et l'apprentissage par association distributionnelle dans les tâches de prédiction du prochain jeton

FMSD-TTS : Synthèse vocale multi-dialectes multi-locuteurs à quelques clichés pour la génération de jeux de données vocales en U-Tsang, Amdo et Kham

Quantification de l'incertitude pour les modèles linguistiques : une suite d'outils de notation de type boîte noire, boîte blanche, juge LLM et ensemble

Hallucinations et extraction d'informations clés dans les textes médicaux : une évaluation complète des grands modèles linguistiques open source

Un cadre conceptuel pour les systèmes de décision basés sur l'IA dans les infrastructures critiques

Actions dominées dans les jeux d'information imparfaite

Exercices pratiques : segmentation de signes individuels à partir de séquences continues

PathGPT : Recadrer la recommandation de chemin comme tâche de génération de langage naturel avec des modèles de langage augmentés par récupération

Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence

JudgeLRM : Grands modèles de raisonnement en tant que juge

L'IA générative dans l'éducation primaire et secondaire : l'initiative CyberScholar

Génération de langage naturel à partir d'événements visuels : état de l'art et questions clés ouvertes

Apprentissage par renforcement hybride basé sur l'action pour une conduite autonome multi-objectifs compatible

La distillation contrastive est-elle suffisante pour apprendre des représentations 3D complètes ?

Moteur d'action : génération automatique de flux de travail dans FaaS

L'importance des langages de modélisation visuelle dans l'ingénierie logicielle générative

Stylisation de tête 3D préservant l'identité avec distillation de partition multivue

SLED : Décodage de l'évolution des logits pour améliorer la facticité dans les grands modèles linguistiques

Test des composants de la théorie des schémas d'attention dans les réseaux de neurones artificiels

Un peu de données humaines peut faire beaucoup de chemin

Source2Synth : génération et conservation de données synthétiques basées sur des sources de données réelles

Débiaising social pour des LLM multimodaux équitables

Une analyse comparative complète des réseaux de neurones spectraux (GNN) : leur impact sur l'efficacité, la mémoire et l'efficience

LoRA-XS : adaptation de bas rang avec un nombre extrêmement réduit de paramètres

Améliorer le diagnostic de dépression grâce au suivi de l'état psychologique

Estimation des limites inférieures de dissipation d'énergie pour l'apprentissage neuromorphique en mémoire

N'appuyez pas sur le bouton ! Exploration des risques de fuite de données dans l'apprentissage automatique et le transfert d'apprentissage.

Vers l'utilisation de cartes de saillance pour expliquer les électrocardiogrammes de faible qualité aux utilisateurs finaux

Convergence de Nash des algorithmes d'apprentissage basés sur la moyenne dans les enchères au premier prix

TASER : Agents de table pour l'extraction et la recommandation guidées par schéma

Modélisation de circuits logiques relationnels pour réseaux convolutifs à graphes inverseurs

EvoCurr : programme d'études auto-évolutif avec génération de codes comportementaux pour la prise de décision complexe

KIRETT : Assistant de traitement intelligent basé sur un graphique de connaissances pour les opérations de sauvetage intelligentes

EoH-S : Évolution des ensembles heuristiques utilisant des LLM pour la conception heuristique automatisée

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

Analyse comparative des pipelines de génération augmentée (RAG) de récupération vectorielle, graphique et hybride pour les réseaux d'accès radio ouverts (ORAN)

Le benchmark NordDRG AI pour les grands modèles linguistiques

Gradients de politique de mémoire finie robustes pour les POMDP à modèle caché

Loi d'échelle de l'agent RL : Agent RL avec exécution de code spontanée pour la résolution de problèmes mathématiques

Apprentissage non supervisé pour l'affectation quadratique

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Analyse comparative de la construction de graphes par de grands modèles de langage pour l'inférence pilotée par la cohérence

La quantification rencontre les dLLM : une étude systématique de la quantification post-formation pour les LLM en diffusion

Apprentissage de la structure des graphes avec goulot d'étranglement des informations temporelles des graphes pour l'apprentissage par représentation inductive

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ via la compression de la hauteur de l'arbre

Raisonnement à longue chaîne de pensée à travers les langues

D'un outil passif à un coéquipier sociocognitif : un cadre conceptuel pour l'IA agentique dans l'apprentissage collaboratif humain-IA

ÉValuation de la génération augmentée par récupération par rapport à la saisie de contexte long pour le raisonnement clinique sur les DSE

TransLight : Contrôle d'éclairage personnalisé guidé par l'image avec découplage génératif

DINov3 avec formation en temps de test pour l'enregistrement d'images médicales

MF-LPR$^2$ : Restauration et reconnaissance d'images de plaques d'immatriculation multi-images à l'aide du flux optique

TransLLM : un cadre de base multitâche unifié pour le transport urbain via des invites d'apprentissage

PepThink-R1 : Master en optimisation des peptides cycliques interprétables avec CoT SFT et apprentissage par renforcement

Génération fiable de problèmes de physique isomorphes à l'aide de ChatGPT avec chaînage d'invites et utilisation d'outils

Génération de molécules contrôlées par modalités croisées avec modèle de langage de diffusion

ÉValuation de l'alignement multilingue et à code commuté dans les LLM via l'inférence synthétique en langage naturel

AFABench : un cadre générique pour l'évaluation comparative de l'acquisition active de fonctionnalités

Jeux Emerson-Lei et Manna-Pnueli pour la synthèse LTLf+ et PPLTL+

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

ShizhenGPT : Vers des masters multimodaux en médecine traditionnelle chinoise

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Ennemi de la fraude : attaques adverses transférables dans la détection de la fraude par carte de crédit

ECHO : codage hiérarchique sensible à la fréquence pour signal de longueur variable

ELATE : Modèle de langage évolutif pour l'ingénierie automatisée des séries chronologiques

OneLoc : Systèmes de recommandation générative géo-sensibles pour les services de la vie locale

Les agents LLM peuvent-ils résoudre des tâches collaboratives ? Étude sur la planification et la coordination en fonction de l'urgence.

ÉTude du rapport signal/distorsion invariant d'échelle dans la séparation de la parole avec des références bruyantes

UST-SSM : Modèles d'espace d'état spatio-temporel unifiés pour la modélisation vidéo de nuages de points

Un cadre de co-développement HW-SW open source permettant des systèmes multi-accélérateurs efficaces

Mamba2 rencontre le silence : séparation robuste des sources vocales pour les régions clairsemées

Combinaison de moniteurs d'exécution à coûts limités pour la sécurité de l'IA

Created by

Haebom

Auteur

Tim Tian Hua, James Baskerville, Henri Lemoine, Mia Hopman, Aryan Bhatt, Tyler Tracy

Contour

Cet article étudie comment combiner plusieurs moniteurs d'exécution en un seul protocole de surveillance. L'objectif est de maximiser la probabilité d'appliquer des mesures de sécurité pour les sorties désalignées (rappel). L'exécution des moniteurs et l'application des mesures de sécurité étant coûteuses, la contrainte de coût moyen doit être respectée. Nous développons un algorithme qui identifie le protocole le plus efficace en prenant en compte les performances et le coût des moniteurs existants. Cet algorithme explore en profondeur quand et quels moniteurs appeler, ainsi que la manière d'appliquer les mesures de sécurité, en s'appuyant sur le lemme de Neyman-Pearson. En nous concentrant sur le rapport de vraisemblance et en réalisant des compromis stratégiques entre les coûts des moniteurs et ceux des actions, nous obtenons un taux de rappel plus que doublé par rapport aux valeurs de référence dans un environnement de revue de code. Nous démontrons également que la combinaison de deux moniteurs peut apporter une amélioration au sens de Pareto par rapport à l'utilisation d'un seul moniteur. Cette étude propose une méthodologie raisonnée pour combiner les moniteurs existants afin de détecter les comportements indésirables dans les environnements sensibles aux coûts.

Takeaways, Limitations_

•

Takeaways:

◦

Nous présentons un algorithme qui intègre efficacement plusieurs moniteurs d’exécution pour maximiser le rappel des mesures de sécurité.

◦

Nous proposons une stratégie pour trouver l’équilibre optimal entre le coût de surveillance et le coût des mesures de sécurité en tirant parti du lemme de Neyman-Pearson.

◦

Nous vérifions expérimentalement les améliorations de performances par rapport aux méthodes existantes dans un environnement de révision de code.

◦

Nous montrons que l’amélioration de Pareto peut être obtenue sous des contraintes de coût.

•

Limitations:

◦

Il s'agit de résultats expérimentaux limités à un environnement de revue de code spécifique. Des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d'autres domaines.

◦

L'algorithme peut présenter une complexité de calcul élevée. Un développement efficace de l'algorithme peut être nécessaire pour son application à des systèmes à grande échelle.

◦

L'algorithme est conçu en partant du principe que les performances et le coût du moniteur sont connus à l'avance. En situation réelle, il peut être difficile d'obtenir ces informations avec précision.

Voir le PDF

Made with Slashpage