Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RotBench : Évaluation de modèles linguistiques multimodaux de grande taille pour l'identification de la rotation d'images

Mise à l'échelle du temps d'entrée

CRED-SQL : Amélioration de l'analyse texte-SQL des bases de données à grande échelle dans le monde réel grâce à la récupération et à l'exécution de clusters Description

STEM : Évaluation efficace des capacités relatives des LLM grâce à des échantillons de transition structurés

AdaRing : Vers une adaptation vision-langage ultra-légère via la décomposition en anneaux tensoriels inter-couches

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

MAViS : un framework multi-agents pour la narration vidéo en longues séquences

ExpVG : Étude de l'espace de conception de l'ancrage visuel dans un modèle de langage multimodal à grande échelle

MetAdv : une plateforme de tests contradictoires unifiée et interactive pour la conduite autonome

ETA : Adaptation du temps de test basée sur l'énergie pour l'achèvement en profondeur

Extension des estimateurs de profondeur monoculaires fondamentaux aux caméras fisheye avec des jetons d'étalonnage

Quand les bons sons deviennent conflictuels : jailbreaker les modèles de langage audio avec des entrées bénignes

CRINN : Apprentissage par renforcement contrastif pour la recherche approximative du plus proche voisin

Réinitialisation des poids par rapport aux unités pour maintenir la plasticité dans les réseaux neuronaux

À Chacun son truc : explorer l'intégration optimale dans RAG

La distillation des caractéristiques est le meilleur choix pour l'apprentissage fédéré à modèle hétérogène

TolerantECG : un modèle fondamental pour l'électrocardiogramme imparfait

DeepRetro : Découverte de voies rétrosynthétiques à l'aide du raisonnement LLM itératif

LoSiA : réglage fin efficace de haut niveau via la localisation et l'optimisation des sous-réseaux

Structure comme recherche : apprentissage par permutation non supervisé pour l'optimisation combinatoire

Amélioration de la sensibilité temporelle d'un grand modèle linguistique pour la recommandation avec un réglage contrefactuel

Analyse de scènes auditives multi-agents

MinD : Apprentissage d'un modèle mondial à double système pour la planification en temps réel et l'analyse des risques implicites

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Analyse comparative des modèles de séries chronologiques pré-entraînés pour la prévision des prix de l'électricité

Spore dans la nature : étude de cas de Spore.fun, une expérience d'évolution en environnement ouvert avec des agents d'IA souverains sur des blockchains sécurisées par TEE

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Restauration neuronale des défauts de verdissement dans les photographies autochromes historiques à partir de données purement synthétiques

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

Format de données commun (CDF) : un format standardisé pour les données de match de football

Les transformateurs à une couche sont prouvés comme optimaux pour le raisonnement en contexte et l'apprentissage par association distributionnelle dans les tâches de prédiction du prochain jeton

FMSD-TTS : Synthèse vocale multi-dialectes multi-locuteurs à quelques clichés pour la génération de jeux de données vocales en U-Tsang, Amdo et Kham

Quantification de l'incertitude pour les modèles linguistiques : une suite d'outils de notation de type boîte noire, boîte blanche, juge LLM et ensemble

Hallucinations et extraction d'informations clés dans les textes médicaux : une évaluation complète des grands modèles linguistiques open source

Un cadre conceptuel pour les systèmes de décision basés sur l'IA dans les infrastructures critiques

Actions dominées dans les jeux d'information imparfaite

Exercices pratiques : segmentation de signes individuels à partir de séquences continues

PathGPT : Recadrer la recommandation de chemin comme tâche de génération de langage naturel avec des modèles de langage augmentés par récupération

Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence

JudgeLRM : Grands modèles de raisonnement en tant que juge

L'IA générative dans l'éducation primaire et secondaire : l'initiative CyberScholar

Génération de langage naturel à partir d'événements visuels : état de l'art et questions clés ouvertes

Apprentissage par renforcement hybride basé sur l'action pour une conduite autonome multi-objectifs compatible

La distillation contrastive est-elle suffisante pour apprendre des représentations 3D complètes ?

Moteur d'action : génération automatique de flux de travail dans FaaS

L'importance des langages de modélisation visuelle dans l'ingénierie logicielle générative

Stylisation de tête 3D préservant l'identité avec distillation de partition multivue

SLED : Décodage de l'évolution des logits pour améliorer la facticité dans les grands modèles linguistiques

Test des composants de la théorie des schémas d'attention dans les réseaux de neurones artificiels

Un peu de données humaines peut faire beaucoup de chemin

Source2Synth : génération et conservation de données synthétiques basées sur des sources de données réelles

Débiaising social pour des LLM multimodaux équitables

Une analyse comparative complète des réseaux de neurones spectraux (GNN) : leur impact sur l'efficacité, la mémoire et l'efficience

LoRA-XS : adaptation de bas rang avec un nombre extrêmement réduit de paramètres

Améliorer le diagnostic de dépression grâce au suivi de l'état psychologique

Estimation des limites inférieures de dissipation d'énergie pour l'apprentissage neuromorphique en mémoire

N'appuyez pas sur le bouton ! Exploration des risques de fuite de données dans l'apprentissage automatique et le transfert d'apprentissage.

Vers l'utilisation de cartes de saillance pour expliquer les électrocardiogrammes de faible qualité aux utilisateurs finaux

Convergence de Nash des algorithmes d'apprentissage basés sur la moyenne dans les enchères au premier prix

TASER : Agents de table pour l'extraction et la recommandation guidées par schéma

Modélisation de circuits logiques relationnels pour réseaux convolutifs à graphes inverseurs

EvoCurr : programme d'études auto-évolutif avec génération de codes comportementaux pour la prise de décision complexe

KIRETT : Assistant de traitement intelligent basé sur un graphique de connaissances pour les opérations de sauvetage intelligentes

EoH-S : Évolution des ensembles heuristiques utilisant des LLM pour la conception heuristique automatisée

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

Analyse comparative des pipelines de génération augmentée (RAG) de récupération vectorielle, graphique et hybride pour les réseaux d'accès radio ouverts (ORAN)

Le benchmark NordDRG AI pour les grands modèles linguistiques

Gradients de politique de mémoire finie robustes pour les POMDP à modèle caché

Loi d'échelle de l'agent RL : Agent RL avec exécution de code spontanée pour la résolution de problèmes mathématiques

Apprentissage non supervisé pour l'affectation quadratique

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Analyse comparative de la construction de graphes par de grands modèles de langage pour l'inférence pilotée par la cohérence

La quantification rencontre les dLLM : une étude systématique de la quantification post-formation pour les LLM en diffusion

Apprentissage de la structure des graphes avec goulot d'étranglement des informations temporelles des graphes pour l'apprentissage par représentation inductive

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ via la compression de la hauteur de l'arbre

Raisonnement à longue chaîne de pensée à travers les langues

D'un outil passif à un coéquipier sociocognitif : un cadre conceptuel pour l'IA agentique dans l'apprentissage collaboratif humain-IA

ÉValuation de la génération augmentée par récupération par rapport à la saisie de contexte long pour le raisonnement clinique sur les DSE

TransLight : Contrôle d'éclairage personnalisé guidé par l'image avec découplage génératif

DINov3 avec formation en temps de test pour l'enregistrement d'images médicales

MF-LPR$^2$ : Restauration et reconnaissance d'images de plaques d'immatriculation multi-images à l'aide du flux optique

TransLLM : un cadre de base multitâche unifié pour le transport urbain via des invites d'apprentissage

PepThink-R1 : Master en optimisation des peptides cycliques interprétables avec CoT SFT et apprentissage par renforcement

Génération fiable de problèmes de physique isomorphes à l'aide de ChatGPT avec chaînage d'invites et utilisation d'outils

Génération de molécules contrôlées par modalités croisées avec modèle de langage de diffusion

ÉValuation de l'alignement multilingue et à code commuté dans les LLM via l'inférence synthétique en langage naturel

AFABench : un cadre générique pour l'évaluation comparative de l'acquisition active de fonctionnalités

Jeux Emerson-Lei et Manna-Pnueli pour la synthèse LTLf+ et PPLTL+

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

ShizhenGPT : Vers des masters multimodaux en médecine traditionnelle chinoise

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Ennemi de la fraude : attaques adverses transférables dans la détection de la fraude par carte de crédit

ECHO : codage hiérarchique sensible à la fréquence pour signal de longueur variable

ELATE : Modèle de langage évolutif pour l'ingénierie automatisée des séries chronologiques

OneLoc : Systèmes de recommandation générative géo-sensibles pour les services de la vie locale

Les agents LLM peuvent-ils résoudre des tâches collaboratives ? Étude sur la planification et la coordination en fonction de l'urgence.

ÉTude du rapport signal/distorsion invariant d'échelle dans la séparation de la parole avec des références bruyantes

UST-SSM : Modèles d'espace d'état spatio-temporel unifiés pour la modélisation vidéo de nuages de points

Un cadre de co-développement HW-SW open source permettant des systèmes multi-accélérateurs efficaces

Mamba2 rencontre le silence : séparation robuste des sources vocales pour les régions clairsemées

Mise à l'échelle du temps d'entrée

Created by

Haebom

Auteur

Raphéal Huang (Yuming), Weilong Guo

Contour

Cet article présente la mise à l'échelle du temps d'entrée (ITS), un nouveau paradigme de mise à l'échelle qui complète les approches existantes de mise à l'échelle des données et de l'apprentissage, ainsi que de mise à l'échelle du temps d'inférence pour les modèles de langage à grande échelle (LLM). Nous proposons une méthode combinant les métaconnaissances des LLM pendant l'apprentissage et les tests afin d'améliorer les entrées grâce à diverses stratégies. Nous découvrons également un phénomène connu sous le nom de co-conception apprentissage-test. L'application de stratégies de requête à la fois à l'apprentissage et aux tests améliore considérablement les performances, tandis que leur application unilatérale les dégrade considérablement. Il est intéressant de noter que les ensembles de données de faible qualité peuvent atteindre des performances élevées, tandis que l'utilisation d'exemples aléatoires ou l'ajout d'informations non pertinentes donnent parfois les meilleurs résultats. Cela réfute le biais inductif courant du « garbage in, garbage out ». En effet, les ensembles de données composés de données de haute qualité peuvent limiter les performances. Les modèles entraînés avec davantage de données de qualité similaire (15 000 contre 1 000) affichent parfois des performances inférieures, ce qui suggère la prudence lors de la simple mise à l'échelle des ensembles de données. Les résultats de cette étude sont cohérents avec le phénomène « Moins, c'est plus », démontrant que des capacités d'inférence de grande dimension peuvent être induites avec un petit nombre d'exemples. Lors d'expériences avec des modèles basés sur Qwen2.5-32B-Instruct, nous avons obtenu des performances de pointe dans AIME24 (76,7 %) et AIME25 (76,7 %) pass@1, et avons obtenu AIME24 (76,7 %) et AIME25 (80 %) grâce à un vote majoritaire à trois modèles. En nous basant sur DeepSeek-R1-Distill-Qwen-32B, nous avons obtenu AIME24 (86,7 %) et AIME25 (76,7 %). Nous prévoyons de rendre open source l'ensemble de données, le pipeline de données, les résultats d'évaluation et les points de contrôle pour la reproductibilité et la poursuite des recherches.

Takeaways, Limitations_

•

Takeaways:

◦

Un nouveau paradigme de mise à l'échelle LLM appelé Input Time Scaling (ITS) est proposé.

◦

Souligner l’importance de la co-conception des tests de formation

◦

Confirmer la faisabilité d'atteindre des performances élevées même avec des ensembles de données de faible qualité et réfuter l'idée reçue selon laquelle « garbage in, garbage out »

◦

Confirmer la possibilité d'induire des capacités d'inférence de grande dimension même avec de petites quantités de données (confirmant le phénomène « Moins c'est plus »)

◦

A obtenu des performances SOTA dans AIME24 et AIME25

•

Limitations:

◦

L'open source de l'ensemble de données, du pipeline de données, des résultats d'évaluation et des points de contrôle est toujours en cours.

◦

Des recherches supplémentaires sont nécessaires sur les effets d’une simple extension de la taille des ensembles de données.

◦

La généralisabilité doit être vérifiée sur différentes architectures et ensembles de données LLM.

Voir le PDF

Made with Slashpage