Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les émotions comme représentations ordinales conscientes de l'ambiguïté

De la Tabula Rasa aux capacités émergentes : découvrir les compétences des robots grâce à la diversité de qualité non supervisée du monde réel

Amélioration de la confidentialité des modèles dans l'apprentissage fédéré grâce au masquage aléatoire et à la quantification

Lois d'échelle pour les connaissances stratifiées par tâches dans les modèles de langage quantifiés post-formation

Détection raisonnée des hallucinations dans les grands modèles linguistiques via des tests multiples

Discriminateur de caractéristiques projetées par vocodeur

ControlEchoSynth : optimisation des modèles d'estimation de la fraction d'éjection via la diffusion vidéo contrôlée

Expliquez avant de répondre : une enquête sur le raisonnement visuel compositionnel

Réseau de diffusion en une étape sensible au temps pour une super-résolution d'images réelles

PediatricsMQA : une référence multimodale de questions-réponses en pédiatrie

VideoEraser : effacement de concepts dans les modèles de diffusion texte-vidéo

ÉTude systématique des attaques et des défenses par extraction de modèles : état de l'art et perspectives

GeoSAM2 : exploiter la puissance de SAM2 pour la segmentation de pièces 3D

Mise à l'échelle du temps d'entrée

LinguaSafe : une référence complète en matière de sécurité multilingue pour les grands modèles linguistiques

Une étude sur la génération de texte parallèle : du décodage parallèle aux modèles de langage de diffusion

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

Putnam-AXIOM : une référence fonctionnelle et statique pour mesurer le raisonnement mathématique de niveau supérieur dans les LLM

De l'imitation à l'optimisation : une étude comparative de l'apprentissage hors ligne pour la conduite autonome

R-Zero : Raisonnement auto-évolutif LLM à partir de données zéro

Interaction homme-IA centrée sur l'humain (HC-HAII) : une perspective d'IA centrée sur l'humain

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Apprentissage multitâche contrastif avec augmentation sensible aux solvants pour la découverte de médicaments

Une référence à grande échelle de l'apprentissage intermodal pour l'histologie et l'expression génétique en transcriptomique spatiale

Architectures invisibles de la pensée : vers une nouvelle science de l'IA comme infrastructure cognitive

Réexamen des modèles de langage pré-entraînés pour la détection des vulnérabilités

MegaScience : Repousser les limites des ensembles de données post-formation pour le raisonnement scientifique

Mise à l'échelle de l'apprentissage décentralisé avec FLock

SegQuant : un cadre de quantification généralisable et sensible à la sémantique pour les modèles de diffusion

Modèles linguistiques de l'Apple Intelligence Foundation : rapport technique 2025

Exploration optimiste pour l'apprentissage par renforcement contraint et averse au risque

PyVision : vision agentique avec outils dynamiques

DATABench : Évaluation de l'audit des ensembles de données dans l'apprentissage profond d'un point de vue contradictoire

RoboTwin 2.0 : un générateur de données évolutif et une référence avec une forte randomisation de domaine pour une manipulation robotique bimanuelle robuste

Analyse de la représentation des personnages dans le contenu médiatique à l'aide du modèle de fondation multimodale : efficacité et confiance

MEraser : une approche efficace d'effacement des empreintes digitales pour les grands modèles linguistiques

CoQuIR : une référence complète pour la recherche d'informations tenant compte de la qualité du code

DreamActor-H1 : Génération de vidéos de démonstration de produits humains haute fidélité via des transformateurs de diffusion conçus par le mouvement

Pseudo-simulation pour la conduite autonome

BinConv : une architecture neuronale pour le codage ordinal dans la prévision des séries chronologiques

FaceEditTalker : génération de têtes parlantes contrôlables avec édition des attributs faciaux

EnvInjection : attaque par injection d'invite environnementale sur des agents Web multimodaux

X-Sim : Apprentissage inter-incarnations via la conversion du réel au réel

Modèles de diffusion de chaleur – Mécanisme d'attention interpixel

Planification bidirectionnelle des tâches et des mouvements basée sur l'apprentissage par renforcement hiérarchique pour la confrontation stratégique

Systèmes de recommandation conversationnelle multi-types sensibles au contexte via un mélange d'experts

Précision du modèle d'IA de tarification

ÉValuation de l'adéquation des ontologies à la tâche de génération de questions

Annotation LLM axée sur l'utilité pour la récupération et la génération augmentée par la récupération

PGAD : distillation adaptative guidée par prototype pour l'apprentissage multimodal dans le diagnostic de la maladie d'Alzheimer

Construction d'une norme pour le dessin scientifique des enfants : caractéristiques de distribution basées sur la similarité sémantique des grands modèles linguistiques

Une approche empirique de minimisation des risques pour le RL inverse hors ligne et le modèle de choix discret dynamique

PINN efficaces via la régularisation unimodulaire multi-têtes de l'espace des solutions

L’apprentissage statistique n’implique pas toujours des connaissances

Modèles de diffusion générative basés sur les scores pour les recommandations sociales

PromptKeeper : invites du système de sauvegarde pour les LLM

X-Invite : Vers une génération universelle d'images contextuelles dans les modèles de fondation du langage de vision autorégressif

Comprendre les compromis entre équité et précision dans les modèles d’apprentissage automatique : la promotion de l’équité nuit-elle aux performances ?

GSM-Symbolic : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage

Exploiter les chemins multifacettes pour l'apprentissage de la représentation de graphes hétérogènes

Formation avec explications seules : un nouveau paradigme pour éviter l'apprentissage par raccourcis

Génération de géodésiques avec apprentissage par renforcement acteur-critique pour prédire les points médians

TabSketchFM : Apprentissage de représentations tabulaires basées sur des croquis pour la découverte de données sur des lacs de données

HoneyBee : un cadre modulaire évolutif pour la création d'ensembles de données oncologiques multimodaux avec des modèles d'intégration fondamentaux

StepWiser : Juges génératifs pas à pas pour un raisonnement plus judicieux

AniME : planification multi-agents adaptative pour la génération d'animations longues

AppAgent-Pro : un système d'agent d'interface utilisateur graphique proactif pour l'intégration d'informations multidomaines et l'assistance aux utilisateurs

Les chaperons IA sont (vraiment) tout ce dont vous avez besoin pour prévenir les relations parasociales avec les chatbots

Nemori : Mémoire d'agent auto-organisée inspirée des sciences cognitives

Les agents généraux contiennent des modèles mondiaux

Construction approximative du modèle soulevé

Paysage de fitness de la recherche automatisée assistée par un modèle de langage volumineux

Synthétiser des tâches de programmation de haute qualité avec des agents experts et étudiants basés sur le LLM

ÉLicitation des préférences pour l'optimisation combinatoire multi-objectif avec apprentissage actif et estimation du maximum de vraisemblance

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Démonstration des spécifications dans les modèles de raisonnement de jeu

AirRAG : Planification et raisonnement stratégiques autonomes Pilotage de la récupération Génération augmentée

Pensez intelligemment, agissez intelligemment ! Analyse des boucliers logiques probabilistes pour l'apprentissage par renforcement multi-agents

De la preuve à la décision : explorer l'IA évaluative

CODA : Coordination du cerveau et du cervelet pour un agent d'utilisation d'ordinateur à double cerveau avec apprentissage par renforcement découplé

Diffusion guidée discrète pour une planification de mouvement multi-robots évolutive et sûre

Autoencodeur masqué de progression de patch avec réseau CNN Fusion pour la classification de l'évolution entre deux paires de tranches OCT 2D

DeepScholar-Bench : un benchmark en direct et une évaluation automatisée pour la synthèse de recherche générative

Grands modèles de langage (LLM) pour l'automatisation de la conception électronique (EDA)

Symphony : un framework multi-agents décentralisé pour une intelligence collective évolutive

Jumeaux numériques HPC pour l'évaluation des politiques de planification, des structures d'incitation et de leur impact sur l'alimentation et le refroidissement

Décomposition des transitions de phase comportementales dans les LLM : paramètres d'ordre pour le désalignement émergent

Catégorisation et recatégorisation des produits de commerce électronique multiplateformes : une approche de classification hiérarchique multimodale

Sélection de démonstration en temps linéaire pour l'apprentissage en contexte via l'estimation du gradient

MathBuddy : un système multimodal pour un tutorat affectif en mathématiques

Les modèles de langage de diffusion connaissent la réponse avant de décoder

GLSim : Détection d'hallucinations d'objets dans les LVLM via la similarité globale-locale

Dhati+ : Modèles linguistiques affinés pour l'évaluation de la subjectivité arabe

WaveHiT-SR : réseau d'ondelettes hiérarchique pour une super-résolution d'image efficace

La couche suivante : Augmentation des modèles de base avec un apprentissage préservant la structure et guidé par l'attention pour les correctifs locaux à la connaissance du contexte global en pathologie computationnelle

Raisonnement logique avec modèles de récompense des résultats pour la mise à l'échelle du temps de test

La dynamique de l'information de la diffusion générative

Détection par l'IA du langage inapproprié dans les programmes des facultés de médecine

IA générative pour tester les systèmes de conduite autonome : une enquête

Données LiDAR multispectrales pour l'extraction de points d'arbres dans les zones urbaines et suburbaines

Mise à l'échelle du temps d'entrée

Created by

Haebom

Auteur

Raphéal Huang (Yuming), Weilong Guo

Contour

Cet article présente la mise à l'échelle en fonction du temps d'entrée (Input-Time Scaling), un nouveau paradigme de mise à l'échelle qui complète les méthodes de mise à l'échelle existantes des modèles de langage à grande échelle (LLM), telles que la mise à l'échelle des données et de l'apprentissage et la mise à l'échelle du temps d'inférence. Cette méthode exploite les métaconnaissances pour améliorer les entrées grâce à diverses stratégies et met en évidence un phénomène appelé « co-conception entraînement-test », où des stratégies sont appliquées à la fois pendant l'apprentissage et les tests. Il est intéressant de noter que nous constatons que les ensembles de données de faible qualité sont parfois plus performants et que des performances optimales peuvent être atteintes avec seulement 1 000 exemples sélectionnés aléatoirement. Ce résultat contredit l'idée reçue selon laquelle « à l'entrée, à la sortie, on obtient des résultats médiocres ». L'apprentissage avec davantage de données de haute qualité n'améliore pas toujours les performances et est cohérent avec le phénomène « moins, c'est plus », où des capacités d'inférence de grande dimension peuvent être obtenues avec seulement 1 000 exemples. Les résultats expérimentaux obtenus avec le modèle Qwen2.5-32B-Instruct ont permis d'atteindre des performances de pointe (76,7 %) sur AIME24 et AIME25. La combinaison des trois modèles par vote majoritaire a permis d'atteindre une performance de 80 % sur AIME25. Avec le modèle DeepSeek-R1-Distill-Qwen-32B, nous avons obtenu une performance de 86,7 % sur AIME24 et de 76,7 % sur AIME25. Nous prévoyons de rendre le jeu de données, le pipeline de données, les résultats d'évaluation et les points de contrôle open source.

Takeaways, Limitations

•

Takeaways:

◦

Un nouveau paradigme de mise à l'échelle du temps d'entrée qui complète les données existantes, la mise à l'échelle de l'apprentissage et la mise à l'échelle du temps d'inférence.

◦

Découvrir l'importance de la co-conception des tests d'entraînement

◦

Nous avons confirmé que les ensembles de données de faible qualité peuvent être plus performants que les ensembles de données de haute qualité (réfutant l'argument Garbage in, Garbage out).

◦

Cohérence avec le phénomène « Moins c'est plus » (inférence à haute dimension possible même avec de petites quantités de données)

◦

Atteindre les performances SOTA sur AIME24 et AIME25

◦

Publication open source d'ensembles de données, de codes, etc.

•

Limitations:

◦

À Ce jour, seuls les résultats expérimentaux pour des modèles spécifiques (Qwen2.5-32B-Instruct, DeepSeek-R1-Distill-Qwen-32B) ont été présentés, ce qui nécessite des recherches supplémentaires sur la généralisabilité.

◦

Une validation supplémentaire est nécessaire pour déterminer si les effets de l’extension du temps d’entrée peuvent être appliqués à tous les LLM.

◦

Une analyse plus approfondie des mécanismes spécifiques de co-conception apprentissage-test est nécessaire.

◦

La publication open source n'est pas encore terminée.

Voir le PDF

Made with Slashpage