Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les utilités individuelles de la satisfaction de vie révèlent une aversion aux inégalités sans rapport avec l'alignement politique

DischargeSim : une simulation de référence pour la communication éducative médecin-patient à la sortie de l'hôpital

Régularisation de la gaussianité basée sur le spectre de moment et de puissance pour les modèles texte-image

Concept computationnel de la psyché (en russe)

MachineLearningLM : Adaptation de l'apprentissage contextuel multi-coups via la préformation continue

La frontière de l'efficacité : ombres classiques contre images quantiques

BranchGRPO : GRPO stable et efficace avec ramification structurée dans les modèles de diffusion

Quantification de l'incertitude dans les modèles d'apprentissage automatique probabilistes : théorie, méthodes et perspectives

CURE : Désapprentissage contrôlé pour des intégrations robustes – Atténuation des raccourcis conceptuels dans les modèles de langage pré-entraînés

Révélation des précurseurs cachés des tremblements de terre grâce à une transformation sensible au stress du bruit sismique

ASE : une référence au niveau du référentiel pour évaluer la sécurité du code généré par l'IA

Comportements subjectifs et préférences en LLM : langue de navigation

Au-delà de dix tours : Débloquer la recherche agentique à long terme avec le RL asynchrone à grande échelle

SGDFuse : diffusion guidée par SAM pour la fusion d'images infrarouges et visibles haute fidélité

Modèles de langage auto-questionnés

MetaExplainer : un cadre pour générer des explications multi-types centrées sur l'utilisateur pour les systèmes d'IA

Comment devrions-nous méta-apprendre les algorithmes d’apprentissage par renforcement ?

ÉValuation complète des prototypes de réseaux neuronaux

HIRAG : Instruction de pensée hiérarchique - Réglage de la récupération - Génération augmentée

CyberRAG : un outil de classification et de reporting des cyberattaques Agentic RAG

Apprentissage par renforcement hiérarchique multi-échelles de temps pour un comportement et un contrôle unifiés de la conduite autonome

Un modèle de représentation non linéaire de bas rang avec un réseau neuronal convolutif pour l'imputation des données sur la qualité de l'eau

VIDÉO : Décomposition visuelle et interactive, exécution et évaluation de l'analyse de texte avec des agents intelligents

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

De la défense statique à la défense adaptative : défense multi-agents fédérée contre les attaques DoS dans les réseaux de drones en essaim, basée sur l'apprentissage par renforcement profond

À Quelle distance sommes-nous de l’efficacité optimale du raisonnement ?

Quel nom est mentionné ? Audit des recommandations des étudiants titulaires d'un master en droit

Critères d'arrêt pour l'itération de valeur sur les jeux simultanés d'accessibilité stochastique et de sécurité

Votre modèle de langage peut secrètement écrire comme les humains : attaques par paraphrase contrastive sur les détecteurs de texte générés par LLM

Ingénierie préalable rapide pour le réglage fin du renforcement

Les erreurs de raisonnement du modèle de langage de grande taille proviennent de caractéristiques de problèmes critiques hallucinantes

CoT-RAG : Intégration de la chaîne de pensée et de la génération augmentée par récupération pour améliorer le raisonnement dans les grands modèles linguistiques

TransitReID : collecte de données OD de transit avec réidentification dynamique des passagers résistante à l'occlusion

TerraMind : Multimodalité générative à grande échelle pour l'observation de la Terre

Boucles d'entraînement récursives dans les LLM : comment les propriétés des données d'entraînement modulent le changement de distribution dans les données générées ?

Mise à l'échelle des modèles de langage vidéo à 10 000 images via la distillation différentielle hiérarchique

Une approche théorique de la décision pour gérer l'incertitude en mécanique quantique

VIPER : Perception visuelle et raisonnement explicable pour la prise de décision séquentielle

LED : détection d'objets à vocabulaire ouvert améliorée LLM sans génération de données organisées par l'homme

Reangle-A-Video : Génération de vidéos 4D comme traduction vidéo-vidéo

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

UAR-NVC : un cadre autorégressif unifié pour la compression vidéo neuronale économe en mémoire

MPO : Optimiser les agents LLM grâce à l'optimisation des méta-plans

Attention aux perturbations du monde réel ! Évaluation de la robustesse naturelle en compréhension de lecture automatique

Un modèle de langage général pour l'identification des peptides

Au-delà des données visibles : amélioration de la généralisation KBQA grâce à la génération de formulaires logiques guidés par schéma

CoAT : Cadre de chaîne de pensées associées pour améliorer le raisonnement sur les grands modèles de langage

Attention à l’écart entre valeur et action : les LLM agissent-ils en accord avec leurs valeurs ?

Réparation de trajectoire conforme aux règles de circulation via les théories de la satisfaisabilité modulo et l'analyse de l'accessibilité

QR-VC : Exploitation des résidus de quantification pour le démêlage linéaire dans la conversion vocale Zero-Shot

IA générative pour l'augmentation des données dans les réseaux sans fil : analyse, applications et étude de cas

Inversion de compression de plage dynamique à amélioration neuronale : une approche hybride pour restaurer la dynamique audio

La quête du bon médiateur : étude de l'interprétabilité mécaniste à travers le prisme de l'analyse de la médiation causale

PriorCLIP : Modèle vision-langage guidé par prior visuel pour la récupération d'images et de textes par télédétection

Une approche de transformateur pour la prévision des prix de l'électricité

FedComLoc : Formation distribuée efficace en termes de communication pour les modèles clairsemés et quantifiés

PQMass : Évaluation probabiliste de la qualité des modèles génératifs à l'aide de l'estimation de masse probabiliste

HiPhO : Quelle est la distance entre les (M)LLM et les humains dans le dernier benchmark des Olympiades de physique au lycée ?

Vers un support décisionnel explicable utilisant des modèles neuronaux hybrides pour l'automatisation des terminaux logistiques

BlendedNet : un ensemble de données d'avions à fuselages multiples et un modèle de substitution pour les prévisions aérodynamiques

C'est tellement FETCH : élaboration de techniques d'ensemble pour la classification des LLM dans le cadre de l'admission et de l'orientation en droit civil

Les lois de Murphy sur l'alignement de l'IA : pourquoi l'écart est toujours gagnant

Surveillance adaptative et évaluation en conditions réelles des systèmes d'IA agentique

Combler le fossé en IA ophtalmique : ensemble de données MM-Retinal-Reason et modèle OphthaReason pour un raisonnement multimodal dynamique

Comprendre l'attention visuelle derrière la navigation des drones inspirée des abeilles

Travailler avec l'IA : mesurer l'applicabilité de l'IA générative aux professions

Mise à l'échelle de la planification LLM : NL2FLOW pour la génération de problèmes paramétriques et l'évaluation rigoureuse

Complétion de graphe de connaissances basée sur le contexte avec transmission de messages relationnels sensibles à la sémantique

Méta-sémantique Apprentissage relationnel augmenté en quelques coups

Perovskite-LLM : Modèles de langage étendus enrichis en connaissances pour la recherche sur les cellules solaires à pérovskite

Graphes de connaissances associatifs pour un stockage et une récupération efficaces des séquences

Planification épistémique limitée en profondeur

Une étude de l'apprentissage par renforcement pour les grands modèles de raisonnement

Piratage de grands modèles de langage : quantifier les risques cachés liés à l'utilisation de LLM pour l'annotation de texte

QCardEst/QCardCorr : estimation et correction de la cardinalité quantique

Distillation par fusion de pensées

MoVoC : Construction de sous-mots tenant compte de la morphologie pour les langages à écriture Geez

Mise à l'échelle de la vérité : le paradoxe de la confiance dans la vérification des faits par l'IA

PianoVAM : un ensemble de données multimodales sur les performances au piano

Un cadre d'apprentissage profond de bout en bout pour le diagnostic de l'arsenicose à l'aide d'images cutanées capturées sur mobile

Utilisation de l'IA pour optimiser le transfert des patients et l'utilisation des ressources lors d'incidents impliquant de nombreuses victimes : une plateforme de simulation

AgentGym-RL : Formation des agents LLM à la prise de décision à long terme grâce à l'apprentissage par renforcement multi-tours

Apprentissage des écoulements turbulents avec des modèles génératifs : super-résolution, prévision et reconstruction d'écoulements clairsemés

FinZero : lancement d'un système de prévision financière multimodale avec un modèle de raisonnement étendu

DEQuify votre champ de force : simulations plus efficaces grâce à des modèles d'équilibre profond

X-Teaming Evolutionary M2S : Découverte automatisée de modèles de jailbreak multi-tours à mono-tour

Explicabilité des modèles de classification basés sur CNN pour le signal acoustique

TANGO : Navigation sensible à la traversabilité avec contrôle des métriques locales pour les objectifs topologiques

Une architecture en couches pour l'analyse des journaux dans les systèmes informatiques complexes

Remodeler l'algorithme Forward-Forward avec un objectif basé sur la similarité

Reconnaissance de la langue des signes basée sur le squelette à l'aide d'un réseau convolutif de graphes dynamiques spatio-temporels à double flux

Apprentissage robuste des politiques d'état de croyance pour le routage des réseaux quantiques dans des conditions de décohérence et de variation temporelle

Architecture d'agents LLM résilients : Guide pour des implémentations sécurisées de type « planification puis exécution »

RoentMod : un modèle de modification de rayons X synthétique pour identifier et corriger les raccourcis du modèle d'interprétation d'image

UOPSL : Apprentissage des sites de prédilection OCT non appariés pour l'amélioration du diagnostic par imagerie du fond d'œil

OTESGN : Réseaux de graphes syntaxiques et sémantiques améliorés pour le transport optimal pour l'analyse des sentiments basée sur les aspects

Classification des comportements de mouvement sur 24 heures à partir des données d'accéléromètres portés au poignet : des fonctionnalités artisanales aux techniques d'apprentissage profond

Mémorisation dans les grands modèles linguistiques en médecine : prévalence, caractéristiques et implications

L'interprétabilité comme alignement : faire de la compréhension interne un principe de conception

MESH – Comprendre les vidéos comme les humains : mesurer les hallucinations dans les grands modèles vidéo

Architecture d'agents LLM résilients : Guide pour des implémentations sécurisées de type « planification puis exécution »

Created by

Haebom

Auteur

Ron F. Del Rosario, Klaudia Krawiecka, Christian Schroeder de Witt

Contour

Cet article propose un guide complet sur le modèle « Planifier puis Exécuter » (PtE) pour la conception d'agents LLM (Large-Scale Language Model) capables d'automatiser des tâches complexes en plusieurs étapes. Nous explorons les principes fondamentaux du modèle PtE, un modèle de conception d'agent qui dissocie la planification stratégique de l'exécution tactique, ses composants (Planificateur et Exécuteur) et ses avantages architecturaux par rapport aux modèles réactifs comme ReAct en termes de prévisibilité, de rentabilité et de qualité d'inférence. Nous nous concentrons sur la sécurité en établissant une résilience inhérente aux attaques par injection rapide indirecte, en détaillant la nécessité d'une stratégie de défense en profondeur et de contrôles complémentaires essentiels tels que le principe du moindre privilège, l'accès aux outils limité à la tâche et l'exécution de code en sandbox. Nous fournissons des plans d'implémentation et des références de code fonctionnels pour trois principaux frameworks d'agents : LangChain (utilisant LangGraph), CrewAI et AutoGen. Nous analysons la manière dont chaque framework implémente le modèle PtE et discutons des modèles avancés, notamment les boucles de replanification dynamique, l'exécution parallèle à l'aide de DAG et l'importance de la vérification humaine dans la boucle (HITL).

Takeaways, Limitations

•

Takeaways:

◦

Présentation de modèles architecturaux efficaces (PtE) pour la conception sûre et prévisible des agents LLM.

◦

Fournit une stratégie de défense robuste contre les attaques par injection rapide indirecte.

◦

Fournir des guides de mise en œuvre pratiques via des cadres majeurs tels que LangChain, CrewAI et AutoGen.

◦

Suggérant la possibilité de construire des agents LLM plus robustes et plus stables grâce à des modèles avancés (replanification dynamique, exécution parallèle et vérification HITL).

•

Limitations:

◦

Rien ne garantit que les mécanismes de sécurité proposés puissent contrer parfaitement tous les types d'attaques. Une amélioration continue des stratégies de défense en profondeur est nécessaire.

◦

L'efficacité du modèle PtE peut varier selon la complexité et la nature de la tâche. Il ne s'agit pas d'un modèle universel optimal pour tous les types de tâches.

◦

Les guides de mise en œuvre sont limités à un cadre spécifique et peuvent nécessiter des efforts supplémentaires lors de l’application d’autres cadres.

Voir le PDF

Made with Slashpage