Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

Stabilisation de l'alimentation pour les centres de données de formation à l'IA

ÉTude systématique des modèles d'apprentissage profond et des méthodes xAI pour la détection des régions d'intérêt dans les examens IRM

Documentation du déploiement avec Fabric : un référentiel de gouvernance de l'IA dans le monde réel

Surya : modèle fondateur de l'héliophysique

Des exemples concrets suffisent : optimiser les budgets d'annotation post-formation GRPO

MCLPD : apprentissage contrastif multi-vues pour la détection de la DP basée sur l'EEG dans les ensembles de données

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

VerilogLAVD : Génération de règles assistée par LLM pour la détection des vulnérabilités dans Verilog

Kourkoutas-Beta : un optimiseur Adam piloté par Sunspike avec une touche désertique

SecFSM : Génération de code Verilog guidée par un graphe de connaissances pour les machines à états finis sécurisées dans les systèmes sur puce

Renforcer le Web agentique : une architecture zéro confiance unifiée contre les menaces de la couche logique

LATTE : Apprentissage des transactions alignées et des intégrations textuelles pour les clients bancaires

Prédicateur : Système agentique papier-vidéo

Agoran : une place de marché ouverte et agentique pour l'automatisation du RAN 6G

Co-conception architecturale pour la détection d'anomalies Zero-Shot : découplage de la représentation et fusion dynamique des fonctionnalités dans CLIP

IBPS : Système indien de prévision des cautions

Diagnostic de la mémorisation dans le raisonnement en chaîne de pensée, un jeton à la fois

TS-Insight : Visualisation de l'échantillonnage de Thompson pour la vérification et l'IAX

Quand une meilleure vue mène à la cécité : une étude diagnostique du goulot d'étranglement informationnel dans les modèles de sous-titrage d'images CNN-LSTM

Seed-X : Créer un LLM solide en traduction multilingue avec les paramètres 7B

Génération de bibliothèques pMHC-I guidées par la structure à l'aide de modèles de diffusion

Apprentissage masqué intermodal pour la prédiction de la survie chez les patients atteints de CBNPC traités par ICI

MCA-RG : Amélioration des LLM grâce à l'alignement des concepts médicaux pour la génération de rapports de radiologie

KEA Explain : Explications des hallucinations à l'aide de l'analyse du noyau graphique

Preuves empiriques de la simulation d'alignement dans un petit LLM et techniques d'atténuation basées sur des invites

ÉTude des modèles fondamentaux de l'IoT : taxonomie et analyse basée sur des critères

Réseaux de régularisation profonde pour les problèmes inverses avec opérateurs bruyants

LMP-Cap : Génération de légendes de figures personnalisées avec des profils de figures multimodaux

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Compression de séquences de jetons sans perte via des méta-jetons

Génération de signaux cardiovasculaires polyvalents avec un transformateur de diffusion unifié

Sélection d'outils flexible grâce à l'alignement des attributs de faible dimension de la vision et du langage

Mutarjim : Améliorer la traduction bidirectionnelle arabe-anglais grâce à un modèle linguistique simplifié

MMiC : atténuer l'incomplétude des modalités dans l'apprentissage fédéré en cluster

Informatique collaborative Edge-Cloud sur l'intelligence distribuée et l'optimisation des modèles : une enquête

Sadeed : Promouvoir la diacritisation arabe grâce à un modèle linguistique simplifié

Annif à SemEval-2025 Tâche 5 : XMTC traditionnel complété par des LLM

CaRL : Apprentissage de politiques de planification évolutives avec des récompenses simples

Sur la cohérence des explications du GNN pour la détection des logiciels malveillants

Cequel : Interrogation rentable de grands modèles linguistiques pour le clustering de texte

Kuwain 1.5B : un SLM arabe via injection de langue

MuSeD : un ensemble de données multimodales en espagnol pour la détection du sexisme dans les vidéos sur les réseaux sociaux

TextSplat : fusion sémantique guidée par texte pour un étalage gaussien généralisable

VerifiAgent : un agent de vérification unifié pour le raisonnement par modèle de langage

Manipulation à long terme incarnée avec génération de code en boucle fermée et adaptation incrémentale à quelques coups

Revisiter la détection hors distribution dans la détection d'objets en temps réel : des pièges de référence à un nouveau paradigme d'atténuation

Un plaidoyer en faveur de la spécialisation dans les entités non humaines

Chaîne d'inférence pragmatique (PIC) : améliorer le raisonnement des LLM sur le langage implicite toxique authentique

Synthétique vs. Or : le rôle des étiquettes et des données générées par LLM dans la détection du cyberharcèlement

Innamark : une méthode de masquage d'informations par remplacement des espaces

La pensée inversée guidée par l'ontologie renforce les grands modèles de langage pour répondre aux questions du graphe de connaissances.

RefineCoder : Amélioration itérative de grands modèles de langage via l'affinement critique adaptatif pour la génération de code

Configuration unique, sécurité permanente : protocole d'agrégation d'apprentissage fédéré sécurisé à configuration unique avec confidentialité avant et arrière pour les utilisateurs dynamiques

Optimisation des invites auto-supervisée

Apprendre à générer des tests unitaires pour le débogage automatisé

Modélisation de la discrimination par abstraction causale

Modèles de langage volumineux pour la revue automatisée de la littérature : évaluation de la génération de références, de la rédaction de résumés et de la composition de revues

Agent d'évaluation : cadre d'évaluation efficace et incitatif pour les modèles génératifs visuels

Apprentissage rapide guidé par les connaissances pour l'assurance qualité des demandes dans le cadre de la revue de code public

Affiner les modèles fondamentaux pour coder les diagnostics à partir des dossiers médicaux vétérinaires

Teuken-7B-Base et Teuken-7B-Instruct : vers des masters européens

Grounded-VideoLLM : Amélioration de l'ancrage temporel précis dans les grands modèles de langage vidéo

Apprentissage continu pour la fusion de données multimodales d'une pince souple

BoostTrack++ : utiliser les informations des tracklets pour détecter davantage d'objets dans le cadre du suivi de plusieurs objets

OPDR : Réduction dimensionnelle préservant l'ordre pour l'intégration sémantique de données scientifiques multimodales

CREMA : un autoencodeur masqué régularisé contrastif pour des diagnostics ECG robustes dans tous les domaines cliniques

Génération de terrain 3D avec des automates cellulaires 2D

Débranchez et jouez avec les modèles de langage : Décomposer les experts en modèles de langage au moment de l'inférence

Utiliser une architecture cognitive pour prendre en compte l'anti-noir dans la conception et le développement des systèmes d'IA

ITL-LIME : Apprentissage par transfert basé sur les instances pour améliorer les explications locales dans les environnements de données à faibles ressources

ThinkTuning : instiller des réflexions cognitives sans distillation

Un « bon théorème régulateur » pour les agents incarnés

Agents prescriptifs basés sur RAG pour la maintenance automatisée (PARAM)

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Opus : un cadre d'intention rapide pour la génération de flux de travail complexes

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

C'est l'intention qui compte : évaluation des tentatives des LLM de Frontier pour persuader sur des sujets préjudiciables

GATES : planification dynamique des flux de travail en fonction des coûts via des réseaux d'attention graphique et une stratégie d'évolution

Conception automatique de programmes d'études pour une coordination homme-IA sans faille

PersonaBench : Évaluation des modèles d'IA pour la compréhension des informations personnelles via l'accès aux données utilisateur privées (synthétiques)

SycEval : Évaluation de la flagornerie des étudiants en LLM

CopyrightShield : Amélioration de la sécurité du modèle de diffusion contre les attaques de violation du droit d'auteur

VLASCD : un modèle d'action en langage visuel pour la conversation et la prise de décision simultanées

ÉTude de l'effet du contenu et du format des explications sur la compréhension et la confiance des utilisateurs dans les soins de santé

Sur les coûts d'action d'apprentissage à partir des plans d'entrée

Interaction homme-objet à partir d'instructions de niveau humain

Apprentissage stratégique non linéaire axé sur le bien-être

CRISPR-GPT pour l'automatisation agentique des expériences d'édition génétique

SceneGen : Génération de scènes 3D à image unique en un seul passage de rétroaction

Découverte de structures algébriques cachées via des transformateurs avec un GRPO à faisceau sensible au rang

LiveMCP-101 : Tests de stress et diagnostic des agents compatibles MCP sur des requêtes complexes

Dynamique des robots neuronaux

Analyse du raisonnement intégré aux outils : étude et analyse empiriques

« L'entrée du café semble-t-elle accessible ? Où est la porte ? » Vers des agents d'IA géospatiaux pour les requêtes visuelles

Formation complète au système Agentic RAG pour un raisonnement diagnostique traçable

Les modèles numériques surpassent les prévisions météorologiques extrêmes de l'IA

EcomMMMU : Utilisation stratégique des visuels pour des modèles de commerce électronique multimodaux robustes

Tutoriel sur l'unification probabiliste de la théorie de l'estimation, de l'apprentissage automatique et de l'IA générative

StreamMem : Mémoire cache KV indépendante des requêtes pour la compréhension du streaming vidéo

Apprendre à générer des tests unitaires pour le débogage automatisé

Created by

Haebom

Auteur

Archiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

Contour

Cet article révèle un compromis entre la génération d'entrées de tests unitaires sujettes aux erreurs et la prédiction précise de sorties de tests unitaires sans réponse correcte. Pour résoudre ce problème, nous proposons UTGen, qui entraîne les LLM à générer des entrées de tests unitaires sujettes aux erreurs et à corriger les sorties attendues en fonction des descriptions de tâches. Les tests générés par le modèle pouvant contenir du bruit, nous améliorons les prédictions de sortie des UT en exploitant les calculs de temps de test via UTDebug. De plus, nous vérifions et rétro-analysons les modifications basées sur plusieurs UT générés afin d'éviter le surapprentissage et de soutenir efficacement le débogage des LLM. Les résultats expérimentaux montrent qu'UTGen surpasse de 7,59 % les autres modèles de référence basés sur les LLM sur les métriques mesurant à la fois les entrées de UT sujettes aux erreurs et les sorties correctes des UT. Associé à UTDebug, il améliore la précision pass@1 de Qwen2.5 32B de 3,17 % et 12,35 %, respectivement, sur les partitions de débogage plus complexes de HumanEvalFix et MBPP+ par rapport aux autres modèles de base de génération UT basés sur LLM. De plus, les retours du modèle UTGen basé sur Qwen2.5 32B ont amélioré de 13,8 % les performances de débogage des LLM de pointe, tels que GPT-4o. Enfin, UTGen démontre qu'en utilisant Qwen2.5 7B avec les 10 meilleurs échantillons de HumanEval+, il surpasse de 4,43 % le modèle de récompense 8B de pointe pour déterminer l'exactitude du code.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une nouvelle approche pour résoudre le compromis entre la génération d’entrées de test unitaires qui révèlent des erreurs et la prédiction de sorties précises.

◦

Amélioration des performances de génération et de débogage des tests unitaires basés sur LLM avec UTGen et UTDebug.

◦

Contribuer à améliorer la capacité du LLM à juger de l'exactitude du code

◦

Contribuer à l'amélioration des performances de débogage des LLM de pointe

•

Limitations:

◦

Les améliorations de performances d'UTGen et d'UTDebug peuvent dépendre du LLM (Qwen2.5) et du jeu de données spécifiques. Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation sur d'autres LLM et jeux de données.

◦

Besoin de créer des tests unitaires pour du code complexe et d'évaluer les performances de débogage.

◦

Une analyse plus approfondie est nécessaire sur l’efficacité de la stratégie de prévention du surapprentissage d’UTDebug.

◦

Il est nécessaire d’évaluer l’applicabilité et l’évolutivité des grandes bases de code.

Voir le PDF

Made with Slashpage