Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉDition couleur guidée par texte sans formation avec transformateur de diffusion multimodale

SPARC : Modèle de recherche multi-intérêts adaptatif probabiliste souple via des livres de codes pour système de recommandation

Quand les deepfakes semblent réels : détection des visages générés par l'IA avec des données non étiquetées en raison de problèmes d'annotation

TempOpt – Apprentissage non supervisé des relations d'alarme pour les réseaux de télécommunications

Une étude sur la génération de texte parallèle : du décodage parallèle aux modèles de langage de diffusion

Adaptation transférable du modèle vision-langage, indépendant du modèle, pour une généralisation efficace du faible au fort

Yan : Génération de vidéos interactives fondamentales

MLLM-CBench : une référence complète pour l'optimisation continue des LLM multimodaux avec analyse du raisonnement par chaîne de pensée

VGGSounder : Évaluations audiovisuelles pour modèles de fondation

Capacités du GPT-5 sur le raisonnement médical multimodal

C-MAG : Graphiques attribués multimodaux en cascade pour la prédiction des maillons de la chaîne d'approvisionnement

Au-delà de dix tours : Débloquer la recherche agentique à long terme avec le RL asynchrone à grande échelle

MIND : Un cadre de débruitage adaptatif au bruit pour les images médicales intégrant un transformateur multi-échelle

FlexCTC : Décodage de faisceau CTC optimisé par GPU avec capacités contextuelles avancées

L'équité de la reconnaissance automatique de la parole : un regard philosophique

Généralisation des lois d'échelle pour les modèles de langage denses et clairsemés de grande taille

Memp : exploration de la mémoire procédurale des agents

InfoCausalQA : les modèles peuvent-ils effectuer un raisonnement causal non explicite basé sur une infographie ?

Analyse comparative de modèles d'intégration moléculaire pré-entraînés pour l'apprentissage de la représentation moléculaire

Optimisation des requêtes uniquement pour les systèmes de recommandation

Chemist Eye : un système basé sur un modèle de langage visuel pour la surveillance de la sécurité et la prise de décision des robots dans les laboratoires autonomes

GTPO et GRPO-S : mise en forme des récompenses au niveau des jetons et des séquences avec entropie des politiques

FairPOT : équilibrer les performances de l'AUC et l'équité avec un transport optimal proportionnel

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Bloc : Équilibrer la charge de travail dans le LLM avec le contexte, les connaissances et la planification prédictive

Estimation des risques de frontière du pire cas des LLM à pondération ouverte

LiteFat : Apprentissage graphique spatio-temporel léger pour la détection de la fatigue du conducteur en temps réel

DRWKV : Mise au point sur les bords des objets pour améliorer les images en basse lumière

Un optimiseur de serpent amélioré multi-stratégie pour la planification de trajectoires de drones tridimensionnels et les problèmes d'ingénierie

Estimateur de densité de taille de fragment pour la fracture induite par retrait basé sur un réseau neuronal basé sur la physique

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

WebArXiv : Évaluation d'agents multimodaux sur des tâches arXiv invariantes dans le temps

Audio-3DVG : audio unifié – fusion de nuages de points pour une mise à la terre visuelle 3D

Au-delà de la saisie semi-automatique : concevoir CopilotLens pour des agents de codage d'IA transparents et explicables

OC-SOP : Amélioration de la prédiction d'occupation sémantique 3D basée sur la vision par la connaissance centrée sur l'objet

SWA-SOP : Attention à la fenêtre spatialement consciente pour la prédiction sémantique de l'occupation dans la conduite autonome

L'importance d'être paresseux : dépasser les limites de l'apprentissage continu

Capture de mouvement humain à partir de capteurs inertiels lâches et épars avec des modèles de diffusion sensibles aux vêtements

HVL : Segmentation semi-supervisée exploitant la synergie hiérarchique vision-langage avec alignement dynamique des requêtes textuelles et spatiales

Segmentation panoptique LiDAR à ensemble ouvert guidée par l'apprentissage sensible à l'incertitude

Empoisonner une fois, contrôler n'importe où : portes dérobées visuelles en texte clair dans les agents mobiles basés sur VLM

MGDFIS : stratégie d'intégration de caractéristiques globales détaillées à plusieurs échelles pour la détection de petits objets

Stratégies d'accélération et d'optimisation des modèles d'apprentissage profond pour les systèmes de recommandation en temps réel

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

Transition progressive de l'opérateur d'optimalité Bellman à l'opérateur Bellman dans l'apprentissage par renforcement en ligne

Sarc7 : Évaluation de la détection et de la génération du sarcasme avec sept types et des techniques basées sur les émotions

Exploration des lois d'échelle pour les modèles de fondation du DSE

MapStory : Prototypage d'animations cartographiques modifiables avec des agents LLM

Enseigner de grands modèles linguistiques pour maintenir la fidélité contextuelle via des tâches synthétiques et un apprentissage par renforcement

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Arrêt des GNN récurrents et calcul gradué $\mu$

Démarrages à chaud de l'apprentissage profond pour l'optimisation de la trajectoire de la Station spatiale internationale

EmoVoice : modèle de synthèse vocale émotionnelle basé sur LLM avec invite de texte libre

FedRecon : Reconstruction des modalités manquantes dans les environnements distribués hétérogènes

De l'IA-Slop au IA-Polish ? Aligner les modèles linguistiques grâce aux récompenses d'écriture basées sur la correction et au calcul du temps d'examen.

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Mosaïque : Élagage de projection composite pour des LLM économes en ressources

CO-Bench : Analyse comparative des agents de modèles de langage dans la recherche d'algorithmes pour l'optimisation combinatoire

Transformateur FT : transformateur résilient et fiable avec une attention aux pannes de bout en bout

La normativité illusoire de la régulation de l'IA fondée sur les droits

Changement de perspective : vecteurs d'orientation pour une atténuation robuste des biais dans les LLM

Simulation du monde réel : une étude unifiée des modèles génératifs multimodaux

RIZE : Apprentissage par imitation régularisé via l'apprentissage par renforcement distributionnel

Les vecteurs de direction optimisés en un coup influencent les comportements liés à la sécurité dans les LLM

EvoP : Inférence LLM robuste via l'élagage évolutif

Prédiction conforme de classificateurs à plusieurs classes basée sur des étiquettes bruyantes

Analyse comparative du raisonnement mathématique des LLM avec des questions à variables aléatoires invisibles

Confessions GenAI : Inférence d'appartenance en boîte noire pour les modèles d'images génératives

Au-delà de la mémorisation : évaluation de la généralisation sémantique dans les grands modèles linguistiques à l'aide de constructions phrastiques

ÉValuation des modèles bio-inspirés dans différents contextes d'apprentissage pour l'efficacité énergétique dans la prévision du trafic réseau

SLTNet : segmentation sémantique efficace basée sur les événements avec des réseaux légers basés sur des transformateurs pilotés par pics

Exploiter les modalités audio et textuelles en santé mentale : une étude des performances des LLM

Caractéristiques d'apprentissage du réseau neuronal quaternion inverse

Détection de points clés humains auto-supervisée guidée par la profondeur via une distillation intermodale

Transformateur de décision augmenté par récupération : mémoire externe pour l'apprentissage par renforcement contextuel

Réduction d'échelle des précipitations extrêmes avec la diffusion régularisée de Wasserstein

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Prédiction du rendement pour la sélection de portefeuilles moyenne-variance : comment l'apprentissage axé sur la décision façonne les modèles de prévision

Classification des tumeurs cérébrales pédiatriques par histopathologie numérique et apprentissage profond : évaluation des méthodes SOTA sur une cohorte suédoise multicentrique

CTRQNets et LQNets : réseaux de neurones quantiques liquides et récurrents à temps continu

Explication des interactions légende-image dans les modèles CLIP avec attributions de second ordre

SpectralEarth : formation de modèles de fondation hyperspectraux à grande échelle

Vers une perception flexible avec la mémoire visuelle

Intégration de graphiques de connaissances cliniques et de systèmes neuronaux basés sur le gradient pour un diagnostic amélioré du mélanome via la liste de contrôle en 7 points

LUMA : un ensemble de données de référence pour l'apprentissage à partir de données incertaines et multimodales

Vers une attaque par inférence d'appartenance en boîte noire pour les modèles de diffusion

Robo-Instruct : alignement des instructions augmenté par simulateur pour affiner les LLM de code

De la performance du modèle à la revendication : comment un changement d'orientation dans la reproductibilité de l'apprentissage automatique peut contribuer à combler le fossé des responsabilités

Apprendre à différer dans les systèmes congestionnés : l'interaction IA-humain

LEAVES : Apprentissage des vues pour les données biocomportementales de séries chronologiques dans l'apprentissage contrastif

Apprentissage par renforcement multi-agents basé sur la théorie des jeux

SMA : Qui a dit ça ? Audit des fuites d'adhésions dans le contrôle RAG semi-noir

Aryabhata : un modèle de langage axé sur les examens pour JEE Math

Repenser la construction de référentiels LLM spécifiques à un domaine : une approche exhaustive et compacte

Les grands modèles linguistiques ne simulent pas la psychologie humaine

Tableau de classement de robustesse LLM v1 – Rapport technique

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

Aperçu de StepFun-Prover : Réfléchissons et vérifions étape par étape

MoSE : Apprentissage par compétences d'experts pour machines autonomes intégrées

Cadres culturels : évaluation de l'alignement des attentes culturelles dans les modèles texte-image et les indicateurs d'évaluation

작성자

Haebom

Auteur

Shravan Nayak, Mehar Bhatia, Xiaofeng Zhang, Verena Rieser, Lisa Anne Hendricks, Sjoerd van Steenkiste, Yash Goyal, Karolina Stanczak, Aishwarya Agrawal

Contour

Cet article aborde les préoccupations concernant la capacité des modèles texte-image (T2I) à représenter fidèlement divers contextes culturels et présente la première étude visant à quantifier systématiquement la cohérence des attentes culturelles explicites et implicites avec les modèles T2I et les indicateurs d'évaluation. À cette fin, nous présentons CulturalFrames, un nouveau référentiel couvrant dix pays et cinq domaines socioculturels. CulturalFrames comprend 983 invites, 3 637 images générées par quatre modèles T2I de pointe et plus de 10 000 annotations humaines détaillées. Nos résultats révèlent que les attentes culturelles sont insatisfaites en moyenne 44 % du temps, selon les modèles et les pays. Un taux étonnamment élevé de 68 % des attentes explicites sont insatisfaites, et 49 % des attentes implicites le sont également. De plus, les indicateurs d'évaluation T2I existants, quelles que soient leurs méthodes d'inférence sous-jacentes, présentent de faibles corrélations avec les jugements humains de cohérence culturelle. En conclusion, cette étude révèle des lacunes importantes, fournit des environnements de test concrets et suggère des orientations concrètes pour développer des modèles et des mesures T2I culturellement sensibles qui améliorent la convivialité globale.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons CulturalFrames, une nouvelle référence pour mesurer et analyser quantitativement les problèmes de biais culturels dans le modèle T2I.

◦

Le modèle T2I a révélé un taux élevé d’échec à répondre aux attentes culturelles (68 % explicites, 49 % implicites, 44 % au total).

◦

Démontre que les mesures d’évaluation existantes n’évaluent pas de manière adéquate l’adéquation culturelle.

◦

Souligne la nécessité de développer des modèles T2I et des mesures d’évaluation culturellement sensibles.

•

Limitations:

◦

Les repères CulturalFrames se concentrent sur des pays et des zones socioculturelles spécifiques, ce qui peut limiter leur généralisabilité.

◦

La subjectivité des annotations humaines peut influencer les résultats.

◦

Bien que nous ayons couvert une variété de modèles T2I, nous ne pourrons peut-être pas couvrir tous les modèles.

◦

L’interprétation des attentes culturelles implicites peut être ambiguë.

Voir le PDF

Slashpage로 제작됨