Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transfert de structure : un calcul basé sur l'inférence pour la transformation des représentations

Ensemble de modèles de base de pathologie pour MIDOG 2025, piste 2 : Classification de la mitose atypique

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.

DaMoC : Sélection efficace du modèle de langage optimal pour affiner les tâches du domaine en fonction de la compression des données et du modèle

Techniques modulaires pour la génération de données synthétiques à contexte long dans l'apprentissage et l'évaluation de modèles de langage

EZhouNet : un cadre basé sur un réseau neuronal graphique et un intervalle d'ancrage pour la détection d'événements sonores respiratoires

AImoclips : une référence pour évaluer la transmission des émotions dans la conversion de texte en musique

TimeCopilot

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

ÉTude pilote sur l'IA générative et la pensée critique dans les classes de l'enseignement supérieur

Beacon : Quantification post-formation avec sélection de grille intégrée

L’intelligence artificielle est-elle en train de remodeler le paysage de la communauté académique internationale des géosciences ?

Attention vectorisée avec codage apprenable pour Quantum Transformer

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

MultiGen : Générateur de discours multilingue adapté aux enfants avec LLM

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Le langage de schéma conceptuel KG-ER

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

TriCLIP-3D : un cadre unifié et efficace en termes de paramètres pour la mise à la terre visuelle 3D trimodale basée sur CLIP

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Une analyse des méthodes de différence temporelle de valeur d'action qui apprennent les valeurs d'état

Décomposition des paramètres stochastiques

Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

ÉValuation de l'efficacité du raisonnement basé sur LLM pour la planification de tâches HPC multi-objectifs

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Optimisation de la transférabilité des modules en super-résolution d'image unique : évaluation de l'universalité et blocs résiduels de cycle

Transformateur de masque transférable : segmentation sémantique inter-domaines avec estimation de la transférabilité adaptative à la région

RBT4DNN : Tests basés sur les exigences des réseaux neuronaux

Apprentissage par imitation hors ligne robuste grâce à l'assemblage de trajectoires au niveau de l'état

Au-delà de l'holographie : les fondements de la gravité quantique entropique du traitement d'images

KNighter : Transformer l'analyse statique avec des vérificateurs synthétisés par LLM

FRIDA à la rescousse ! Analyse de l'efficacité des données synthétiques dans le raisonnement de bon sens basé sur les objets pour la réponse aux catastrophes.

CoDiff : modèle de diffusion conditionnelle pour la détection collaborative d'objets 3D

Apprentissage rapide des mots grâce à l'apprentissage méta-contextuel

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Un modèle de fondation basé sur une image naturelle ultra-large est-il supérieur à un modèle spécifique à la rétine pour détecter les maladies oculaires et systémiques ?

Score des valeurs aberrantes basé sur l'histogramme étendu (EHBOS)

ÉTude de la génération augmentée de graphiques pour les modèles de langage personnalisés de grande taille

Briser le goulot d'étranglement contextuel sur les prévisions de séries chronologiques longues

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Apprentissage expérientiel basé sur Kolb pour agents généralistes avec des performances scientifiques de niveau humain avec Kaggle

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux grâce à une théorie fondée sur des preuves

Formation robuste de modèles génératifs implicites pour les distributions multivariées et à queue lourde avec une perte statistique invariante

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

AutoPETIII : La frontière du Tracer. Quelle frontière ?

Réseau à séquences d'entrée longues pour la prévision de séries chronologiques longues

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

Unisolver : Transformateurs conditionnels d'EDP vers des solveurs neuronaux universels d'EDP

MTP : une abstraction de langage typée par le sens pour la programmation intégrée à l'IA

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Transfert de style vers les bandes dessinées Calvin et Hobbes à l'aide de Stable Diffusion

Autonomisation, pas automatisation : activités et besoins des vérificateurs de faits européens comme base pour la conception de systèmes d'IA centrés sur l'humain

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Extension de FKG.in : vers un réseau de traçabilité des allégations alimentaires

DeepVIS : relier le langage naturel et la visualisation des données grâce au raisonnement par étapes

Théorie de l'esprit utilisant l'inférence active : un cadre pour la coopération multi-agents

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Axiomatique des choix restreints par ordres linéaires d'ensembles avec minimum comme solution de repli

Invite guidée par DMN : un cadre pour contrôler le comportement LLM

Bases informatiques de la prise de décision en simulation sociale au LLM

La science à travers les langues : évaluation de la traduction multilingue d'articles scientifiques dans le cadre d'un master en droit

Amélioration de FKG.in : automatisation de l'analyse de la composition des aliments indiens

WASP : une approche pondération-espace pour détecter les faussetés apprises

Modèle de croyance transférable sur les circuits quantiques

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

(Ir)rationalité en IA : état de l'art, défis de recherche et questions ouvertes

Manuel de renseignement

ChronoGraph : un ensemble de données chronologiques multivariées basé sur des graphiques du monde réel

Activations Delta : une représentation pour les modèles de langage volumineux affinés

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Pas de pensées, juste de l'IA : les recommandations biaisées des LLM limitent l'intervention humaine dans la sélection des CV

IPA : un cadre de projection d'entrée préservant l'information pour une adaptation efficace du modèle de fondation

SSGaussian : transfert de style 3D sensible à la sémantique et préservant la structure

Prévision de la disponibilité du stationnement via la fusion de données multi-sources avec un transformateur inversé spatio-temporel amélioré par apprentissage auto-supervisé

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

De l'éditeur à l'estimateur de géométrie dense

Apprentissage de la représentation d'entités découplées pour le classement des publicités Pinterest

Les faits s'estompent rapidement : évaluation de la mémorisation des connaissances médicales obsolètes dans de grands modèles linguistiques

HumAine-Chatbot : IA conversationnelle personnalisée en temps réel via l'apprentissage par renforcement

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

Une étude empirique des vulnérabilités dans les packages Python et leur détection

Combien de patients pourrions-nous sauver avec des antécédents de LLM ?

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

MAGneT : Génération multi-agents coordonnée de séances synthétiques de conseil en santé mentale à plusieurs tours

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Ensemble YOLO pour la détection multispectrale des défauts dans les composants des éoliennes par drone

L'attention comme filtre adaptatif

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Amélioration de la recherche de documents techniques pour RAG

Des indicateurs à la signification : il est temps de repenser l’évaluation dans la conception collaborative homme-IA

Created by

Haebom

Auteur

Sean P. Walton, Ben J. Evans, Alma AM Rahat, James Stovold, Jakub Vincalek

Contour

Cet article appelle à repenser l'évaluation des systèmes collaboratifs homme-IA et propose une approche plus sophistiquée et multidimensionnelle. Nous analysons le « Genetic Car Designer », un système collaboratif homme-IA, à travers une étude de terrain à grande échelle menée auprès de 808 participants et une étude contrôlée en laboratoire menée auprès de 12 participants. Les participants ayant reçu des propositions de conception générées par un système intelligent basé sur MAP-Elites ont démontré un engagement cognitif et comportemental plus important et ont produit des résultats de conception de meilleure qualité que ceux ayant reçu des propositions de conception aléatoires. Nous démontrons que les méthodes d'évaluation existantes, qui se concentrent uniquement sur les indicateurs comportementaux et de qualité de conception, ne parviennent pas à saisir l'intégralité du spectre de l'engagement utilisateur. Nous soutenons que le processus de conception homme-IA doit être considéré comme une évaluation holistique des systèmes homme-IA, prenant en compte l'évolution des états émotionnels, comportementaux et cognitifs du concepteur. Nous soutenons également que les systèmes intelligents doivent être considérés comme des éléments essentiels de l'expérience utilisateur, et non comme de simples outils back-end.

Takeaways, Limitations

•

Takeaways:

◦

Nous soulignons les limites de l’approche simple et centrée sur les indicateurs existante pour évaluer les systèmes collaboratifs homme-IA et suggérons la nécessité d’une méthode d’évaluation multidimensionnelle qui prend en compte les aspects émotionnels, comportementaux et cognitifs.

◦

Nous démontrons empiriquement que les systèmes intelligents basés sur MAP-Elites sont efficaces pour améliorer l’engagement des utilisateurs et la qualité de la conception.

◦

Il souligne que les systèmes intelligents doivent être considérés comme un élément essentiel de l’expérience utilisateur dans les systèmes d’IA humaine.

•

Limitations:

◦

ÉTant donné que le système étudié est limité à un type spécifique de tâche de conception (conception automobile 2D), des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d’autres types de tâches de conception.

◦

Le nombre de participants à l’étude en laboratoire était limité (n = 12), ce qui nécessitait de prendre en compte la généralisabilité des résultats.

◦

Des recherches supplémentaires sont nécessaires sur des indicateurs et des méthodes de mesure spécifiques pour évaluer de manière exhaustive les aspects émotionnels, comportementaux et cognitifs.

Voir le PDF

Made with Slashpage