Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transfert de structure : un calcul basé sur l'inférence pour la transformation des représentations

Ensemble de modèles de base de pathologie pour MIDOG 2025, piste 2 : Classification de la mitose atypique

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.

DaMoC : Sélection efficace du modèle de langage optimal pour affiner les tâches du domaine en fonction de la compression des données et du modèle

Techniques modulaires pour la génération de données synthétiques à contexte long dans l'apprentissage et l'évaluation de modèles de langage

EZhouNet : un cadre basé sur un réseau neuronal graphique et un intervalle d'ancrage pour la détection d'événements sonores respiratoires

AImoclips : une référence pour évaluer la transmission des émotions dans la conversion de texte en musique

TimeCopilot

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

ÉTude pilote sur l'IA générative et la pensée critique dans les classes de l'enseignement supérieur

Beacon : Quantification post-formation avec sélection de grille intégrée

L’intelligence artificielle est-elle en train de remodeler le paysage de la communauté académique internationale des géosciences ?

Attention vectorisée avec codage apprenable pour Quantum Transformer

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

MultiGen : Générateur de discours multilingue adapté aux enfants avec LLM

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Le langage de schéma conceptuel KG-ER

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

TriCLIP-3D : un cadre unifié et efficace en termes de paramètres pour la mise à la terre visuelle 3D trimodale basée sur CLIP

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Une analyse des méthodes de différence temporelle de valeur d'action qui apprennent les valeurs d'état

Décomposition des paramètres stochastiques

Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

ÉValuation de l'efficacité du raisonnement basé sur LLM pour la planification de tâches HPC multi-objectifs

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Optimisation de la transférabilité des modules en super-résolution d'image unique : évaluation de l'universalité et blocs résiduels de cycle

Transformateur de masque transférable : segmentation sémantique inter-domaines avec estimation de la transférabilité adaptative à la région

RBT4DNN : Tests basés sur les exigences des réseaux neuronaux

Apprentissage par imitation hors ligne robuste grâce à l'assemblage de trajectoires au niveau de l'état

Au-delà de l'holographie : les fondements de la gravité quantique entropique du traitement d'images

KNighter : Transformer l'analyse statique avec des vérificateurs synthétisés par LLM

FRIDA à la rescousse ! Analyse de l'efficacité des données synthétiques dans le raisonnement de bon sens basé sur les objets pour la réponse aux catastrophes.

CoDiff : modèle de diffusion conditionnelle pour la détection collaborative d'objets 3D

Apprentissage rapide des mots grâce à l'apprentissage méta-contextuel

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Un modèle de fondation basé sur une image naturelle ultra-large est-il supérieur à un modèle spécifique à la rétine pour détecter les maladies oculaires et systémiques ?

Score des valeurs aberrantes basé sur l'histogramme étendu (EHBOS)

ÉTude de la génération augmentée de graphiques pour les modèles de langage personnalisés de grande taille

Briser le goulot d'étranglement contextuel sur les prévisions de séries chronologiques longues

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Apprentissage expérientiel basé sur Kolb pour agents généralistes avec des performances scientifiques de niveau humain avec Kaggle

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux grâce à une théorie fondée sur des preuves

Formation robuste de modèles génératifs implicites pour les distributions multivariées et à queue lourde avec une perte statistique invariante

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

AutoPETIII : La frontière du Tracer. Quelle frontière ?

Réseau à séquences d'entrée longues pour la prévision de séries chronologiques longues

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

Unisolver : Transformateurs conditionnels d'EDP vers des solveurs neuronaux universels d'EDP

MTP : une abstraction de langage typée par le sens pour la programmation intégrée à l'IA

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Transfert de style vers les bandes dessinées Calvin et Hobbes à l'aide de Stable Diffusion

Autonomisation, pas automatisation : activités et besoins des vérificateurs de faits européens comme base pour la conception de systèmes d'IA centrés sur l'humain

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Extension de FKG.in : vers un réseau de traçabilité des allégations alimentaires

DeepVIS : relier le langage naturel et la visualisation des données grâce au raisonnement par étapes

Théorie de l'esprit utilisant l'inférence active : un cadre pour la coopération multi-agents

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Axiomatique des choix restreints par ordres linéaires d'ensembles avec minimum comme solution de repli

Invite guidée par DMN : un cadre pour contrôler le comportement LLM

Bases informatiques de la prise de décision en simulation sociale au LLM

La science à travers les langues : évaluation de la traduction multilingue d'articles scientifiques dans le cadre d'un master en droit

Amélioration de FKG.in : automatisation de l'analyse de la composition des aliments indiens

WASP : une approche pondération-espace pour détecter les faussetés apprises

Modèle de croyance transférable sur les circuits quantiques

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

(Ir)rationalité en IA : état de l'art, défis de recherche et questions ouvertes

Manuel de renseignement

ChronoGraph : un ensemble de données chronologiques multivariées basé sur des graphiques du monde réel

Activations Delta : une représentation pour les modèles de langage volumineux affinés

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Pas de pensées, juste de l'IA : les recommandations biaisées des LLM limitent l'intervention humaine dans la sélection des CV

IPA : un cadre de projection d'entrée préservant l'information pour une adaptation efficace du modèle de fondation

SSGaussian : transfert de style 3D sensible à la sémantique et préservant la structure

Prévision de la disponibilité du stationnement via la fusion de données multi-sources avec un transformateur inversé spatio-temporel amélioré par apprentissage auto-supervisé

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

De l'éditeur à l'estimateur de géométrie dense

Apprentissage de la représentation d'entités découplées pour le classement des publicités Pinterest

Les faits s'estompent rapidement : évaluation de la mémorisation des connaissances médicales obsolètes dans de grands modèles linguistiques

HumAine-Chatbot : IA conversationnelle personnalisée en temps réel via l'apprentissage par renforcement

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

Une étude empirique des vulnérabilités dans les packages Python et leur détection

Combien de patients pourrions-nous sauver avec des antécédents de LLM ?

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

MAGneT : Génération multi-agents coordonnée de séances synthétiques de conseil en santé mentale à plusieurs tours

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Ensemble YOLO pour la détection multispectrale des défauts dans les composants des éoliennes par drone

L'attention comme filtre adaptatif

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Amélioration de la recherche de documents techniques pour RAG

CoT-Self-Instruct : Créer des invites synthétiques de haute qualité pour les tâches de raisonnement et de non-raisonnement

Created by

Haebom

Auteur

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

Contour

Cet article propose CoT-Self-Instruct, une méthode de génération de données synthétiques de haute qualité pour les modèles de langage à grande échelle (LLM). Basé sur une tâche initiale, CoT-Self-Instruct infère et planifie d'abord le LLM via la chaîne de pensée (CoT), puis génère de nouvelles données synthétiques de qualité et de complexité similaires. Cette étape est suivie d'une étape de filtrage qui sélectionne les données de haute qualité à l'aide de mesures d'évaluation automatique, et les données sélectionnées sont utilisées pour l'entraînement des LLM. Les résultats expérimentaux montrent que CoT-Self-Instruct surpasse les jeux de données d'entraînement existants (s1k, OpenMathReasoning) sur les tâches de raisonnement vérifiables (MATH500, AMC23, AIME24, GPQA-Diamond) ainsi que les données générées par l'homme et les données d'entraînement d'auto-instruction standard sur les tâches de suivi d'instructions non vérifiables (AlpacaEval 2.0, Arena-Hard).

Takeaways, Limitations

•

Takeaways:

◦

CoT-Self-Instruct peut contribuer à améliorer les performances du LLM en générant des données synthétiques de meilleure qualité que les ensembles de données existants.

◦

Il montre d'excellentes performances à la fois sur les tâches d'inférence vérifiables et sur les tâches d'instructions invérifiables.

◦

Nous présentons une méthode permettant de sélectionner efficacement des données de haute qualité à l’aide de mesures d’évaluation automatisées.

•

Limitations:

◦

Une validation supplémentaire des performances de généralisation et de la fiabilité de la métrique d’évaluation automatique proposée est nécessaire.

◦

Il y a un manque d’analyse du biais et de la sécurité des données synthétiques générées.

◦

ÉTant donné que les performances ont été évaluées uniquement pour un type spécifique de tâche, il est nécessaire d’examiner la généralisation des performances à d’autres types de tâches.

Voir le PDF

Made with Slashpage