Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

Stabilisation de l'alimentation pour les centres de données de formation à l'IA

ÉTude systématique des modèles d'apprentissage profond et des méthodes xAI pour la détection des régions d'intérêt dans les examens IRM

Documentation du déploiement avec Fabric : un référentiel de gouvernance de l'IA dans le monde réel

Surya : modèle fondateur de l'héliophysique

Des exemples concrets suffisent : optimiser les budgets d'annotation post-formation GRPO

MCLPD : apprentissage contrastif multi-vues pour la détection de la DP basée sur l'EEG dans les ensembles de données

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

VerilogLAVD : Génération de règles assistée par LLM pour la détection des vulnérabilités dans Verilog

Kourkoutas-Beta : un optimiseur Adam piloté par Sunspike avec une touche désertique

SecFSM : Génération de code Verilog guidée par un graphe de connaissances pour les machines à états finis sécurisées dans les systèmes sur puce

Renforcer le Web agentique : une architecture zéro confiance unifiée contre les menaces de la couche logique

LATTE : Apprentissage des transactions alignées et des intégrations textuelles pour les clients bancaires

Prédicateur : Système agentique papier-vidéo

Agoran : une place de marché ouverte et agentique pour l'automatisation du RAN 6G

Co-conception architecturale pour la détection d'anomalies Zero-Shot : découplage de la représentation et fusion dynamique des fonctionnalités dans CLIP

IBPS : Système indien de prévision des cautions

Diagnostic de la mémorisation dans le raisonnement en chaîne de pensée, un jeton à la fois

TS-Insight : Visualisation de l'échantillonnage de Thompson pour la vérification et l'IAX

Quand une meilleure vue mène à la cécité : une étude diagnostique du goulot d'étranglement informationnel dans les modèles de sous-titrage d'images CNN-LSTM

Seed-X : Créer un LLM solide en traduction multilingue avec les paramètres 7B

Génération de bibliothèques pMHC-I guidées par la structure à l'aide de modèles de diffusion

Apprentissage masqué intermodal pour la prédiction de la survie chez les patients atteints de CBNPC traités par ICI

MCA-RG : Amélioration des LLM grâce à l'alignement des concepts médicaux pour la génération de rapports de radiologie

KEA Explain : Explications des hallucinations à l'aide de l'analyse du noyau graphique

Preuves empiriques de la simulation d'alignement dans un petit LLM et techniques d'atténuation basées sur des invites

ÉTude des modèles fondamentaux de l'IoT : taxonomie et analyse basée sur des critères

Réseaux de régularisation profonde pour les problèmes inverses avec opérateurs bruyants

LMP-Cap : Génération de légendes de figures personnalisées avec des profils de figures multimodaux

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Compression de séquences de jetons sans perte via des méta-jetons

Génération de signaux cardiovasculaires polyvalents avec un transformateur de diffusion unifié

Sélection d'outils flexible grâce à l'alignement des attributs de faible dimension de la vision et du langage

Mutarjim : Améliorer la traduction bidirectionnelle arabe-anglais grâce à un modèle linguistique simplifié

MMiC : atténuer l'incomplétude des modalités dans l'apprentissage fédéré en cluster

Informatique collaborative Edge-Cloud sur l'intelligence distribuée et l'optimisation des modèles : une enquête

Sadeed : Promouvoir la diacritisation arabe grâce à un modèle linguistique simplifié

Annif à SemEval-2025 Tâche 5 : XMTC traditionnel complété par des LLM

CaRL : Apprentissage de politiques de planification évolutives avec des récompenses simples

Sur la cohérence des explications du GNN pour la détection des logiciels malveillants

Cequel : Interrogation rentable de grands modèles linguistiques pour le clustering de texte

Kuwain 1.5B : un SLM arabe via injection de langue

MuSeD : un ensemble de données multimodales en espagnol pour la détection du sexisme dans les vidéos sur les réseaux sociaux

TextSplat : fusion sémantique guidée par texte pour un étalage gaussien généralisable

VerifiAgent : un agent de vérification unifié pour le raisonnement par modèle de langage

Manipulation à long terme incarnée avec génération de code en boucle fermée et adaptation incrémentale à quelques coups

Revisiter la détection hors distribution dans la détection d'objets en temps réel : des pièges de référence à un nouveau paradigme d'atténuation

Un plaidoyer en faveur de la spécialisation dans les entités non humaines

Chaîne d'inférence pragmatique (PIC) : améliorer le raisonnement des LLM sur le langage implicite toxique authentique

Synthétique vs. Or : le rôle des étiquettes et des données générées par LLM dans la détection du cyberharcèlement

Innamark : une méthode de masquage d'informations par remplacement des espaces

La pensée inversée guidée par l'ontologie renforce les grands modèles de langage pour répondre aux questions du graphe de connaissances.

RefineCoder : Amélioration itérative de grands modèles de langage via l'affinement critique adaptatif pour la génération de code

Configuration unique, sécurité permanente : protocole d'agrégation d'apprentissage fédéré sécurisé à configuration unique avec confidentialité avant et arrière pour les utilisateurs dynamiques

Optimisation des invites auto-supervisée

Apprendre à générer des tests unitaires pour le débogage automatisé

Modélisation de la discrimination par abstraction causale

Modèles de langage volumineux pour la revue automatisée de la littérature : évaluation de la génération de références, de la rédaction de résumés et de la composition de revues

Agent d'évaluation : cadre d'évaluation efficace et incitatif pour les modèles génératifs visuels

Apprentissage rapide guidé par les connaissances pour l'assurance qualité des demandes dans le cadre de la revue de code public

Affiner les modèles fondamentaux pour coder les diagnostics à partir des dossiers médicaux vétérinaires

Teuken-7B-Base et Teuken-7B-Instruct : vers des masters européens

Grounded-VideoLLM : Amélioration de l'ancrage temporel précis dans les grands modèles de langage vidéo

Apprentissage continu pour la fusion de données multimodales d'une pince souple

BoostTrack++ : utiliser les informations des tracklets pour détecter davantage d'objets dans le cadre du suivi de plusieurs objets

OPDR : Réduction dimensionnelle préservant l'ordre pour l'intégration sémantique de données scientifiques multimodales

CREMA : un autoencodeur masqué régularisé contrastif pour des diagnostics ECG robustes dans tous les domaines cliniques

Génération de terrain 3D avec des automates cellulaires 2D

Débranchez et jouez avec les modèles de langage : Décomposer les experts en modèles de langage au moment de l'inférence

Utiliser une architecture cognitive pour prendre en compte l'anti-noir dans la conception et le développement des systèmes d'IA

ITL-LIME : Apprentissage par transfert basé sur les instances pour améliorer les explications locales dans les environnements de données à faibles ressources

ThinkTuning : instiller des réflexions cognitives sans distillation

Un « bon théorème régulateur » pour les agents incarnés

Agents prescriptifs basés sur RAG pour la maintenance automatisée (PARAM)

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Opus : un cadre d'intention rapide pour la génération de flux de travail complexes

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

C'est l'intention qui compte : évaluation des tentatives des LLM de Frontier pour persuader sur des sujets préjudiciables

GATES : planification dynamique des flux de travail en fonction des coûts via des réseaux d'attention graphique et une stratégie d'évolution

Conception automatique de programmes d'études pour une coordination homme-IA sans faille

PersonaBench : Évaluation des modèles d'IA pour la compréhension des informations personnelles via l'accès aux données utilisateur privées (synthétiques)

SycEval : Évaluation de la flagornerie des étudiants en LLM

CopyrightShield : Amélioration de la sécurité du modèle de diffusion contre les attaques de violation du droit d'auteur

VLASCD : un modèle d'action en langage visuel pour la conversation et la prise de décision simultanées

ÉTude de l'effet du contenu et du format des explications sur la compréhension et la confiance des utilisateurs dans les soins de santé

Sur les coûts d'action d'apprentissage à partir des plans d'entrée

Interaction homme-objet à partir d'instructions de niveau humain

Apprentissage stratégique non linéaire axé sur le bien-être

CRISPR-GPT pour l'automatisation agentique des expériences d'édition génétique

SceneGen : Génération de scènes 3D à image unique en un seul passage de rétroaction

Découverte de structures algébriques cachées via des transformateurs avec un GRPO à faisceau sensible au rang

LiveMCP-101 : Tests de stress et diagnostic des agents compatibles MCP sur des requêtes complexes

Dynamique des robots neuronaux

Analyse du raisonnement intégré aux outils : étude et analyse empiriques

« L'entrée du café semble-t-elle accessible ? Où est la porte ? » Vers des agents d'IA géospatiaux pour les requêtes visuelles

Formation complète au système Agentic RAG pour un raisonnement diagnostique traçable

Les modèles numériques surpassent les prévisions météorologiques extrêmes de l'IA

EcomMMMU : Utilisation stratégique des visuels pour des modèles de commerce électronique multimodaux robustes

Tutoriel sur l'unification probabiliste de la théorie de l'estimation, de l'apprentissage automatique et de l'IA générative

StreamMem : Mémoire cache KV indépendante des requêtes pour la compréhension du streaming vidéo

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

Created by

Haebom

Auteur

Myke C. Cohen, Zhe Su, Hsien-Te Kao, Daniel Nguyen, Spencer Lynch, Maarten Sap, Svitlana Volkova

Contour

Cet article présente un cadre d'évaluation pour les systèmes d'IA d'agents dans des situations de négociation critiques. Afin de répondre au besoin d'agents d'IA capables de s'adapter à divers opérateurs et parties prenantes, nous avons systématiquement évalué l'influence des traits de personnalité et des caractéristiques des agents d'IA sur les résultats de négociations sociales simulées avec le LLM (Low-Low-Level Management) à travers deux expériences utilisant le banc d'essai de simulation Sotopia. Ceci est essentiel pour diverses applications, notamment la coordination inter-équipes et les interactions civilo-militaires. Dans l'expérience 1, nous avons utilisé des méthodes de découverte causale pour mesurer l'impact des traits de personnalité sur les négociations de prix, constatant que l'agréabilité et l'extraversion ont un impact significatif sur la fiabilité, la réalisation des objectifs et l'acquisition de connaissances. Une échelle de vocabulaire sociocognitif extraite de la communication d'équipe détecte des différences subtiles dans la communication empathique, les fondements moraux et les schémas d'opinion des agents, fournissant des informations exploitables pour les systèmes d'IA d'agents qui doivent fonctionner de manière fiable dans des scénarios opérationnels à haut risque. Dans l'expérience 2, nous avons évalué les négociations d'emploi entre humains et IA en manipulant des traits de personnalité humains simulés et des caractéristiques de systèmes d'IA (notamment la transparence, la compétence et l'adaptabilité) afin de démontrer l'influence de la fiabilité des agents IA sur l'efficacité des missions. Ces résultats soutiennent directement les exigences opérationnelles de systèmes d'IA robustes en établissant une méthodologie d'évaluation reproductible pour tester la fiabilité des agents IA en fonction de la personnalité des opérateurs et de la dynamique des équipes homme-agent. Cette recherche fait progresser l'évaluation des flux de travail des agents IA en allant au-delà des indicateurs de performance standard et en intégrant les dynamiques sociales essentielles à la réussite des missions complexes.

Takeaways, Limitations

•

Takeaways:

◦

Présentation d'une méthodologie reproductible pour évaluer les systèmes d'IA d'agent dans des situations de négociation critiques.

◦

Fournit des informations sur la manière dont les traits de personnalité et les caractéristiques des agents d'IA ont un impact sur les résultats des négociations.

◦

Souligne l’importance d’évaluer les systèmes d’IA qui prennent en compte la dynamique sociale.

◦

Fournit des conseils pour la conception d’agents d’IA qui prennent en compte les interactions avec une variété d’opérateurs humains.

•

Limitations:

◦

Limites de l'environnement de simulation Sotopia. Des recherches supplémentaires sont nécessaires pour déterminer son applicabilité en situation réelle.

◦

Limites des simulations basées sur le LLM : elles peuvent ne pas refléter parfaitement le comportement humain complexe.

◦

Se concentrer sur des traits de personnalité spécifiques et sur les caractéristiques des agents IA. Des recherches supplémentaires sont nécessaires sur un éventail plus large de facteurs.

◦

Une vérification supplémentaire de la généralisabilité des résultats de simulation est nécessaire.

Voir le PDF

Made with Slashpage