Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Optimisation des récompenses de processus autoguidées avec un avantage étape par étape redéfini pour l'apprentissage par renforcement des processus

Créer des Hanzi comme passerelles narratives : un atelier de co-création d'IA pour les migrants âgés

Acteur-critique souple distributionnel avec politique de diffusion

Skywork-Reward-V2 : Adaptation de la conservation des données de préférences grâce à la synergie homme-IA

Division rapide des modèles d'IA sur les réseaux Edge

Des phrases aux séquences : repenser les langages dans les systèmes biologiques

MTCNet : Apprentissage guidé par la cohérence du mouvement et de la topologie pour la segmentation de la valve mitrale en échographie 4D

Horus : un protocole de délégation sans confiance en cas d'incertitude

Mélange de raisonnements : apprendre aux grands modèles linguistiques à raisonner avec des stratégies adaptatives

Analyse comparative de la manipulation bimanuelle généralisable : défi de collaboration à deux bras RoboTwin lors de l'atelier MEIS CVPR 2025

Red Teaming pour l'IA générative : rapport sur un exercice axé sur le droit d'auteur réalisé dans un centre médical universitaire

AirV2X : collaboration unifiée entre véhicules air-sol et tout

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Alignement des LLM gelés par apprentissage par renforcement : une approche itérative de repondération puis d'optimisation

Distinguer l'IA prédictive et générative dans la réglementation

Un sondage, rien d'autre ? Utiliser de grands modèles linguistiques pour coder les réponses ouvertes en allemand sur la motivation.

Restauration d'images textuelles avec modèles de diffusion

Dans quelle mesure les politiques de mot de passe générées par LLM sont-elles efficaces ?

Vers une comparaison et un alignement explicables des intégrations de fonctionnalités

Empreinte digitale de modèle basée sur le gradient pour la détection de similarité LLM et la classification des familles

Renforcer l'économie intelligente à basse altitude grâce au déploiement de modèles d'IA à grande échelle

Intégration des LLM pour la simulation de mobilité urbaine complexe à grande échelle

Génération d'hypothèses de graphes causaux dynamiques en neurosciences : Exploitation des modèles factoriels génératifs de séries temporelles observées

Voyager à travers les langues : évaluation de la cohérence interlinguistique dans les LLM multimodaux

Modélisation des menaces pour l'IA : Plaidoyer pour une approche centrée sur les actifs

SoccerDiffusion : Vers un apprentissage complet du football robotisé humanoïde à partir d'enregistrements de gameplay

PAD : Fusion par découplage phase-amplitude pour la classification multimodale de la couverture terrestre

Indices de significativité pour les valeurs d'accord

Substituts transférables dans les espaces de recherche d'architecture neuronale expressive

Analyse du flux de travail du bloc opératoire préservant la confidentialité à l'aide de jumeaux numériques

Segmentation tumorale grossière à fine guidée par l'incertitude avec post-traitement tenant compte de l'anatomie

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Commander-GPT : exploiter pleinement la capacité de détection du sarcasme des grands modèles linguistiques multimodaux

Atténuation des biais basée sur la compréhension pour une segmentation CMR équitable

HAPI : un modèle pour l'apprentissage des expressions faciales des robots à partir des préférences humaines

MaizeField3D : un ensemble de données de nuage de points 3D et de modèles procéduraux de maïs cultivé en plein champ à partir d'un panel de diversité

Estimation de l'illuminant et de la direction de la lumière à l'aide de la méthode de distance de Wasserstein

Limites fondamentales de l'agrégation sécurisée hiérarchique avec association d'utilisateurs cyclique

LLM - Prédiction optimisée de l'hyperglycémie et découverte de voies de traitement comportementales à partir d'objets connectés et de l'alimentation

Diffusion de Gibbs entrelacée : génération de données discrètes continues avec contraintes implicites

EquiTabPFN : un réseau ajusté a priori équivariant à permutation cible

Réglage des circuits : une approche mécaniste pour identifier la redondance des paramètres et affiner les réseaux neuronaux

EigenLoRAx : Recyclage des adaptateurs pour trouver des sous-espaces principaux pour une adaptation et une inférence économes en ressources

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

Activation du parallélisme au niveau de la population dans la programmation génétique arborescente pour une accélération GPU complète

Paramètres vs FLOP : lois d'échelle pour une parcimonie optimale pour les modèles de langage à mélange d'experts

Quantification de l'importance de l'alignement des données dans les performances du modèle en aval

Découverte causale améliorée par technologie quantique pour un petit nombre d'échantillons

Sur les caractérisations pour la génération du langage : interaction entre hallucinations, ampleur et stabilité

Préfixe de jeton : une approche sans formation pour obtenir de meilleures incorporations de phrases à partir des LLM

COEF-VQ : Compréhension de la qualité vidéo rentable grâce à un cadre LLM multimodal en cascade

GeMID : modèles généralisables pour l'identification des appareils IoT

La tâche de prédiction du prochain jeton suppose un ordre optimal des données pour la formation LLM dans la génération de preuves

Répondre à des requêtes complexes est-il vraiment complexe ?

Navigation aérienne par vision et langage via une représentation sémantique-topo-métrique Raisonnement LLM guidé

Apprentissage par renforcement hors ligne pour l'apprentissage de la répartition pour la planification des ateliers

Reconsidérer l'efficacité énergétique des réseaux neuronaux à pointes

Exploration de l'intégration de grands modèles linguistiques dans les processus de maintenance des tests industriels

Formation préalable au guidage des mouvements de la sonde d'échocardiographie en fonction des séquences

Modèles anatomiques fondamentaux pour les IRM cérébrales

Apprendre des étiquettes bruyantes issues du crowdsourcing : une perspective de traitement du signal

Quantification des écarts intersectoriels entre groupes multiples à l'aide d'une analyse de classe latente en vue d'une plus grande équité

Se plonger dans l'écriture assistée par LLM dans les publications biomédicales grâce à un vocabulaire excédentaire

Vers une nouvelle mesure de la confiance des utilisateurs dans les systèmes XAI

ÉViter les catastrophes dans l'apprentissage en ligne en demandant de l'aide

Améliorer la robustesse de la reconnaissance d'entités nommées supervisées à distance grâce à l'apprentissage par l'enseignant conscient de l'incertitude et à l'apprentissage collaboratif entre élèves

Au-delà de l'échelle : le coefficient de diversité comme mesure de la qualité des données pour la variabilité des données en langage naturel

Apprentissage par renforcement inverse bayésien à densité de noyau

Agents d'IA incarnés : Modéliser le monde

Mind2Web 2 : Évaluation de la recherche agentique avec l'agent-juge

AI Flow : perspectives, scénarios et approches

Un cadre pour le raisonnement conditionnel dans la programmation par ensemble de réponses

L'autoformalisation à l'ère des grands modèles linguistiques : une enquête

Observabilité des processus d'IA agentique : découverte de la variabilité comportementale

Rapport sur l'indice d'intelligence artificielle 2025

MAPS : Faire progresser le raisonnement multimodal dans les sciences physiques de niveau expert

XGeM : un modèle de fondation multi-invite pour la génération de données médicales multimodales

Optimisation des préférences directes à l'aide de contraintes au niveau des fonctionnalités clairsemées

Cognition non supervisée

Pré-formation et incitation en région urbaine : une approche basée sur des graphiques

Générateur de graphiques routiers : cartographie des routes sur les chantiers de construction à partir de données GPS

Point3R : Reconstruction 3D en continu avec mémoire de pointeur spatial explicite

LiteReality : Reconstruction de scènes 3D prêtes pour les graphiques à partir de numérisations RVB-D

La correspondance des réponses surpasse le choix multiple pour l'évaluation des modèles de langage

Sous-typage dans DHOL – Préimpression étendue

MOTIF : Pensée modulaire via le renforcement et le perfectionnement dans les LLM

USAD : un réseau de diffusion d'attention spatio-temporelle à augmentation de données non supervisée

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

SynapseRoute : un framework de commutation automatique d'itinéraires sur un modèle de langage à double état

Banc d'autocorrection : révéler et traiter l'angle mort de l'autocorrection dans les LLM

Analyse de scènes auditives multi-agents

Rapide et simplexe : attention 2-simpliciale dans Triton

Synthétisable par conception : un cadre guidé par rétrosynthèse pour la génération d'analogues moléculaires

Attention linéaire avec contexte global : un mécanisme d'attention multipolaire pour la vision et la physique

Premiers signes de capacités stéganographiques dans les LLM de Frontier

Meta SecAlign : un LLM de base sécurisé contre les attaques par injection rapide

FairHuman : Améliorer la qualité des mains et des visages dans la génération d'images humaines avec un délai potentiel minimal Équité dans les modèles de diffusion

APT : Formation personnalisée adaptative pour les modèles de diffusion avec données limitées

ASDA : Mécanisme d'attention différentielle par spectrogramme audio pour l'apprentissage auto-supervisé des représentations

ÉValuation de la gestion des dépendances à longue portée dans les LLM de génération de code

Created by

Haebom

Auteur

Yannick Assogba, Donghao Ren

Contour

Cet article analyse la capacité de plusieurs modèles de génération de code à gérer les dépendances à longue portée à l'aide de tâches de recherche de clés en plusieurs étapes, avec des fenêtres contextuelles pouvant atteindre 8 000 jetons. En utilisant des tâches de plus en plus difficiles, nous évaluons les performances des modèles de manière plus fine qu'un simple test de recherche d'aiguilles. En particulier, nous constatons que de nombreux modèles présentent des dégradations de performances allant jusqu'à deux ordres de grandeur lorsqu'une fonction fait référence à une autre fonction définie plus loin dans l'invite. Nous constatons également que les modèles utilisant des mécanismes d'attention par fenêtre glissante peinent à gérer les références plus éloignées qu'une seule fenêtre. Nous montrons que de simples modifications de l'invite à l'aide d'informations de graphe d'appels peuvent améliorer les performances de recherche en plusieurs étapes jusqu'à trois ordres de grandeur. Cette analyse souligne la nécessité d'une prise en compte plus approfondie des performances contextuelles des textes longs, au-delà de la recherche de faits uniques dans les documents.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une méthode d’évaluation plus granulaire de la capacité à gérer les dépendances à longue distance.

◦

Clarification des capacités __T4060__ du modèle de génération de code pour la gestion du contexte long (en particulier les limitations des références interfonctionnelles et des mécanismes d'attention des fenêtres coulissantes).

◦

Suggérant la possibilité d’améliorer les performances en utilisant les informations du graphique d’appel.

◦

Souligne la nécessité d’une évaluation approfondie des performances contextuelles au long cours, au-delà de la simple recherche de faits.

•

Limitations:

◦

Limites sur le type et le nombre de modèles de génération de code utilisés dans l'analyse.

◦

Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations de performances grâce à l’utilisation des informations du graphique d’appels sont applicables à tous les cas.

◦

Manque d'analyse des performances pour les contextes supérieurs à 8 000 jetons.

Voir le PDF

Made with Slashpage