Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion de texte en SQL de bout en bout avec sélection d'ensembles de données : Exploiter les LLM pour la génération de requêtes adaptatives

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

LAG : Génération Logique Augmentée d'un point de vue cartésien

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

FDC-Net : Repenser l'association entre la suppression des artefacts EEG et l'informatique affective multidimensionnelle

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

RCR-Router : routage contextuel efficace et sensible aux rôles pour les systèmes LLM multi-agents avec mémoire structurée

DS$^2$Net : réseau de supervision approfondie sémantique détaillée pour la segmentation d'images médicales

LLMDistill4Ads : Utilisation d'encodeurs croisés pour extraire les signaux LLM et recommander des mots-clés aux annonceurs sur eBay

Quand les voitures ont des stéréotypes : Audit des biais démographiques dans les objets à partir de modèles texte-image

HiTeC : Apprentissage contrastif hiérarchique sur hypergraphe à attributs textuels avec augmentation sémantique

SpectrumFM : redéfinir la cognition spectrale grâce à la modélisation des fondations

Chirurgie dynamique assistée par robot avec segmentation sémantique hiérarchique incrémentale de classe

Un nouveau modèle de langage pour prédire les résultats des événements indésirables graves dans les essais cliniques à partir de leurs enregistrements prospectifs

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

ALLoyM : un modèle de langage étendu pour la prédiction du diagramme de phase des alliages

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Les modèles de la Vision Foundation sont-ils prêts pour l’enregistrement d’images médicales prêtes à l’emploi ?

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

RAPNet : un réseau neuronal convolutif adaptatif à champ réceptif pour le pansharpening

AMix-1 : une voie vers un modèle de base protéique évolutif au cours des tests

Combler le dernier kilomètre de la prédiction : améliorer la prévision des séries chronologiques grâce à la correspondance conditionnelle des flux guidés

Speckle2Self : réduction du speckle par ultrasons auto-supervisée sans données propres

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

S'attaquer aux effets dévastateurs de l'empoisonnement des données à tâche unique dans l'apprentissage continu sans exemple

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

ARAG : Génération Augmentée de Récupération Agentique pour une Recommandation Personnalisée

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

CycleDistill : Amorçage de la traduction automatique à l'aide de LLM avec distillation cyclique

Détection robuste des anomalies dans le trafic réseau : évaluation des modèles d'apprentissage automatique sur CICIDS2017

Clonage de comportement robuste via la régularisation Lipschitz globale

K-Means à noyaux multiples induits par des boules granulaires

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

MMET : un transformateur multi-entrées et multi-échelles pour une résolution efficace des EDP

Une méthode d'optimisation en deux étapes pour la détection magnétique quantique à électron unique à large portée

Transformateur de téléconnexion basé sur la physique pour les prévisions sous-saisonnières à saisonnières à l'échelle mondiale

Compromis générés par l'IA pour la formation de coalitions

MLOps avec microservices : une étude de cas sur le domaine maritime

Le gagnant remporte tout pour la prévision probabiliste multivariée des séries chronologiques

Des bonds au-delà de ce qui est visible : Raisonnement renforcé Génération augmentée pour les notes cliniques

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

HERGC : Représentation d'experts hétérogènes et complétion générative pour graphes de connaissances multimodaux

Loup-garou verbal : engagez les utilisateurs avec un cadre de jeu de loup-garou agentique verbalisé

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

CADRE : Assurance personnalisable de la disponibilité des données dans un apprentissage fédéré préservant la confidentialité

FP4 All the Way : Formation entièrement quantifiée des LLM

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Extraction de connaissances probabilistes à partir de grands modèles de langage pour la paramétrisation des réseaux bayésiens

RIDGECUT : Apprentissage du partitionnement de graphes avec anneaux et coins

Perte uniforme vs. Optimisation spécialisée : une analyse comparative de l'apprentissage multitâche

Les stratégies d’investissement financier basées sur le LLM peuvent-elles surpasser le marché à long terme ?

Une approche d'apprentissage profond multimodal pour la prédiction de la forme de la matière blanche en tractographie IRM de diffusion

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Apprentissage de la représentation multimodale des protéines hiérarchiques bidirectionnelles

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Une théorie de l'apprentissage avec une chaîne de pensée autorégressive

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

ElementaryNet : un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux de forme normale

Raisonnement collectif chez les étudiants en master : un cadre pour la validation des réponses sans vérité fondamentale

Synthèse d'images médicales optimisée par l'IA : enseignements tirés du défi MedVQA-GI avec CLIP, diffusion stable finement réglée et Dream-Booth + LoRA

Prédire la dépression lors des entretiens de sélection grâce à une collaboration interactive multi-thématique

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

MQuant : Libérer le potentiel d'inférence des grands modèles linguistiques multimodaux grâce à la quantification statique complète

Atténuer les oscillations du trafic dans les flux de trafic mixtes grâce au contrôle prédictif évolutif de Koopman profond

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

FIT-Print : Vers une vérification de la propriété du modèle résistante aux fausses déclarations via une empreinte digitale ciblée

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Rang d'Ehrenfeucht-Haussler et chaîne de pensée

WebWalker : Analyse comparative des LLM en matière de navigation Web

IA générative pour l'animation cellulaire : une enquête

Vers un Cloud intelligent et sécurisé : une défense proactive optimisée par un modèle de langage étendu

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Comprendre et atténuer la mémorisation dans les modèles génératifs via la netteté des paysages de probabilité

Piloter la personnalisation des textes scientifiques pilotée par l'IA pour le grand public

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

EfficientEQA : une approche efficace pour répondre à des questions incarnées à vocabulaire ouvert

UoMo : un modèle universel de prévision du trafic mobile pour l'optimisation des réseaux sans fil

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Ajustement in situ des modèles de faune sauvage dans les pièges photographiques compatibles avec l'IoT pour une adaptation efficace

Pré-entraînement au langage EEG pour un phénotypage clinique hautement efficace en termes d'étiquetage

Une pratique de post-formation sur Llama-3 70B avec une sélection optimale du ratio de mélange de langues supplémentaires

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

La chaîne de pensée pense toujours vite : APriCoT aide à penser lentement

Enquête sur le modèle MoErging : recyclage et routage parmi les experts spécialisés pour l'apprentissage collaboratif

Biais IA-IA : les grands modèles de langage favorisent les communications générées par de grands modèles de langage

LVBench : un benchmark de compréhension des vidéos extrêmement longues

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Verre brisé, caméras défaillantes : simulation d'échantillons contradictoires basés sur la physique pour les systèmes de conduite autonome

Surveillance de l'exécution et application de l'équité conditionnelle dans les IA génératives

Sur l'efficacité des échantillons d'abstractions et la formation de récompenses basées sur le potentiel dans l'apprentissage par renforcement

SciReplicate-Bench : Analyse comparative des LLM en reproduction algorithmique pilotée par agents à partir d'articles de recherche

Created by

Haebom

Auteur

Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

Contour

Cette étude évalue des modèles de langage à grande échelle (MLH) générant du code à partir de descriptions d'algorithmes issues d'articles récents sur le TALN. Cette tâche requiert deux compétences clés : la compréhension algorithmique (la capacité à synthétiser les informations issues d'articles et de la littérature académique pour comprendre la logique d'implémentation) et l'expertise en codage (la capacité à identifier les dépendances et à implémenter correctement les API requises). Afin de garantir une évaluation rigoureuse, nous présentons SciReplicate-Bench, un benchmark composé de 100 tâches issues de 36 articles de TALN publiés en 2024. Ce benchmark inclut des annotations détaillées et des cas de test complets. En nous appuyant sur SciReplicate-Bench, nous proposons Sci-Reproducer, un framework à double agent composé d'un agent papier, qui interprète les concepts algorithmiques de la littérature, et d'un agent code, qui récupère les dépendances des référentiels et implémente des solutions. Pour évaluer la compréhension algorithmique, nous introduisons la précision du graphe d'inférence, qui quantifie la similarité entre le graphe d'inférence généré et le graphe d'inférence de référence dérivé des annotations et de la structure du code. Pour évaluer la qualité de l'implémentation, nous utilisons la précision d'exécution, CodeBLEU et les métriques de dépendance du référentiel/rappel d'API. Dans nos expériences, nous évaluons divers modèles LLM robustes de non-inférence et d'inférence comme modèles de référence. Le LLM le plus performant utilisant \ModelName n'a atteint qu'une précision de 39 %, ce qui souligne la difficulté de l'analyse comparative. Notre analyse a révélé que l'absence ou l'incohérence des descriptions d'algorithmes constituait un obstacle majeur à une reproductibilité réussie. Le benchmark et le code sont disponibles à l' adresse https://github.com/xyzCS/SciReplicate-Bench , et la page d'accueil du projet à l' adresse https://xyzcs.github.io/scireplicate.github.io/에서 .

GitHub - xyzCS/SciReplicate-Bench: The dataset and code for paper "SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers"

The dataset and code for paper "SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers" - xyzCS/SciReplicate-Bench

github.com

Takeaways, Limitations

•

Takeaways:

◦

Fournit des critères d'évaluation rigoureux et des repères (SciReplicate-Bench) pour la compréhension des algorithmes et les compétences de génération de code du LLM.

◦

Présentation de nouvelles mesures pour évaluer la compréhension des algorithmes et les capacités d'implémentation du code (précision du graphique d'inférence, précision d'exécution, CodeBLEU, dépendance du référentiel/rappel de l'API).

◦

Met clairement en évidence les limites de la reproductibilité algorithmique actuelle du LLM (faible précision d'exécution des modèles les plus performants).

◦

Nous montrons que la qualité de la description de l’algorithme a un impact significatif sur le succès de la génération de code.

•

Limitations:

◦

Le nombre de documents et de tâches inclus dans le benchmark peut être limité.

◦

Une prise en compte complète des indicateurs d’évaluation est nécessaire, et il existe une possibilité de biais en faveur d’indicateurs spécifiques.

◦

Les types de LLM utilisés peuvent être limités et il est nécessaire d’évaluer une gamme plus large de modèles.

◦

Il est difficile d’exclure complètement l’influence de facteurs externes tels que le caractère incomplet de la description de l’algorithme.

Voir le PDF

Made with Slashpage