Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CTA : Alignement inter-tâches pour une meilleure formation au temps de test

OpenS2S : Développement d'un modèle de langage empathique à grande échelle, entièrement open source et de bout en bout

Classification des maladies auto-immunes à partir des répertoires TCR du sang périphérique par apprentissage multimodal multi-instance

Qu'est-ce qui produit ce son en ce moment ? Localisation audiovisuelle centrée sur la vidéo

LoSiA : réglage fin efficace de haut niveau via la localisation et l'optimisation des sous-réseaux

Transfert de style de portrait généralisable de domaine

StreamDiT : Génération de texte en vidéo en streaming en temps réel

De la vidéo à l'EEG : adapter l'architecture prédictive d'intégration conjointe pour découvrir des concepts visuels dans l'analyse des signaux cérébraux

BMMR : un ensemble de données de raisonnement multidisciplinaire, multimodal et bilingue à grande échelle

Résolveur de réseaux neuronaux d'équilibres MHD idéaux

RAG-R1 : Stimuler les capacités de recherche et de raisonnement des LLM grâce au parallélisme multi-requêtes

ÉValuation du conseil par IA en japonais : rôles du conseiller, du client et de l'évaluateur évalués selon des critères d'entretien motivationnel

Hita : Tokenizer holistique pour la génération d'images autorégressives

Analyse empirique des algorithmes heuristiques et d'approximation pour le problème de visibilité mutuelle

Horus : un protocole de délégation sans confiance en cas d'incertitude

Modèle géologique 3D : un modèle de fondations incitatif pour une compréhension unifiée et sans faille du sous-sol

SurgiSR4K : un ensemble de données vidéo endoscopiques haute résolution pour les procédures mini-invasives assistées par robot

WATS : Calibrage des réseaux neuronaux graphiques avec mise à l'échelle de la température par ondelettes

IPFormer-VideoLLM : Améliorer la compréhension vidéo multimodale pour les scènes à prises multiples

Conversations personnalisées au-delà des LLM : un gestionnaire de dialogue basé sur l'apprentissage à temps réel

Amélioration de la généralisation des réseaux neuronaux à pics grâce à la régularisation temporelle

Suivi des instructions en stimulant l'attention des grands modèles linguistiques

ÉValuation des scores GOP basés sur Logit pour la détection des erreurs de prononciation

Masters de maîtrise en soutien à la confidentialité et à la sécurité des applications mobiles : état de l'art et axes de recherche

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Intégration des caractéristiques spatiotemporelles dans LSTM pour une prévision spatialement informée des hospitalisations liées à la COVID-19

CuVSLAM : odométrie et cartographie visuelles accélérées CUDA

Amélioration du GOP dans la détection des erreurs de prononciation basée sur CTC grâce aux connaissances phonologiques

Une étude empirique des corrélations entre tâches et caractéristiques dans la réutilisation de modèles pré-entraînés

EEG2TEXT-CN : Étude exploratoire de l'alignement texte-EEG chinois à vocabulaire ouvert via un modèle de langage étendu et un apprentissage contrastif sur l'EEG chinois

Hume : Introduction à la pensée système 2 dans le modèle visuel-langage-action

Vers une mémoire continue générale pour les modèles vision-langage

Format de données commun (CDF) : un format standardisé pour les données de match de football

Prédiction invariante hiérarchique bayésienne

Ajustement précis des politiques de diffusion avec rétropropagation via les pas de temps de diffusion

Amélioration de la localisation des objets satellites grâce aux convolutions dilatées et au regroupement spatial assisté par l'attention

Surmonter la pénurie de données dans la modélisation générative du langage pour les langues à faibles ressources : une revue systématique

La génération GenAI : points de vue des étudiants sur la sensibilisation, la préparation et les préoccupations

Correction de l'état OOD variationnel pour l'apprentissage par renforcement hors ligne

Modèles de diffusion de chaleur – Mécanisme d'attention interpixel

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Apprentissage et oubli hors ligne pour le raisonnement avec de grands modèles de langage

Redéfinir les normes d'évaluation : un cadre unifié pour évaluer les capacités des modèles linguistiques coréens

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Défis et tendances de la vision égocentrique : une enquête

Regard sur l'environnement : analyse pilotée par l'IA pour la classification, la segmentation et la détection des incendies et de la fumée

Routage analytique des sous-espaces : fonctionnement des moindres carrés récursifs dans l'apprentissage continu d'un grand modèle de langage

Une enquête sur l'extension du contexte du transformateur : approches et évaluation

IA éthique pour les jeunes citoyens numériques : un appel à l'action sur la gouvernance de la vie privée

UniCombine : Combinaison multiconditionnelle unifiée avec transformateur de diffusion

L'architecture d'état algorithmique (ASA) : un cadre intégré pour un gouvernement basé sur l'IA

Un cadre multi-agent coopératif en cascade pour le contrôle de fusion de rampe d'accès intégrant de grands modèles de langage

Prédiction d'événements médicaux sans risque à l'aide d'un transformateur génératif pré-entraîné sur les dossiers médicaux électroniques

GMLM : Réseaux neuronaux graphiques et modèles de langage pour la classification des nœuds hétérophiles

Limites fondamentales de l'agrégation sécurisée hiérarchique avec association d'utilisateurs cyclique

Amélioration de la fiabilité du LLM grâce à la modélisation explicite des limites des connaissances

RSPO : Alignement automatique régularisé de grands modèles de langage

Structuration et récupération de connaissances à granularité fine pour la réponse visuelle aux questions

Planification efficace et sensible aux risques grâce à des mesures de risque entropiques

Optimisation bayésienne pour l'édition d'images contrôlée via LLM

Fusion de modèles de faible rang et clairsemés pour la reconnaissance vocale et la traduction multilingues

Cadre stratégique composable avec modèles de langage volumineux intégrés basés sur la vidéo et le texte pour l'évaluation de l'insuffisance cardiaque

En sécurité au-delà de l'horizon : MPC efficace basé sur l'échantillonnage avec fonctions de barrière de contrôle neuronal

Une théorie pour la modélisation générative conditionnelle sur plusieurs sources de données

Détection d'anomalies non supervisée grâce au transport optimal par répulsion de masse

ÉChantillonneurs de diffusion discrets évolutifs : optimisation combinatoire et physique statistique

DeepCell : Fusion multivue auto-supervisée pour l'apprentissage de la représentation des circuits

VolleyBots : un banc d'essai pour un jeu de volley-ball multi-drones combinant contrôle des mouvements et jeu stratégique

ViGiL3D : un ensemble de données linguistiquement diversifié pour l'ancrage visuel 3D

Automatisation holistique de la construction avec des robots modulaires : de la spécification des tâches de haut niveau à leur exécution

Aria-UI : Bases visuelles pour les instructions d'interface utilisateur graphique

RandAR : Génération visuelle autorégressive dans des ordres aléatoires uniquement par décodeur

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

Les autoencodeurs masqués contrastifs du graphique de pré-formation sont de puissants distillateurs pour l'EEG

Marches aléatoires avec Tweedie : une vision unifiée des modèles de diffusion basés sur les scores

Réseau Q grossier à fin avec séquence d'actions pour un apprentissage robotique efficace en données

Améliorer la prédiction du risque d'AVC à l'aide d'un modèle de base multimodal

Une théorie de l'esprit basée sur l'IA améliorera notre intelligence collective

Les masters en droit sont-ils prémonitoires ? Une évaluation continue utilisant l'actualité quotidienne comme oracle

Intégration d'ensemble longitudinal pour la classification séquentielle avec des données multimodales

Amélioration de l'estimation de la confiance dans la collaboration homme-robot grâce à la réputation bêta à des échelles de temps précises

Feinte et attaque : stratégies basées sur l'attention pour le jailbreak et la protection des LLM

Le lien entre les technologies AR/VR, IA, UI/UX et robotique pour améliorer l'apprentissage et l'interaction sociale des enfants atteints de troubles du spectre autistique : une revue systématique

Quelle question poseriez-vous à la première rencontre avec $a^2+b^2=c^2$ ? Évaluation du LLM sur le questionnement guidé par la curiosité

Responsabilité et assurance pour les pertes catastrophiques : le précédent de l’énergie nucléaire et les leçons pour l’IA

Assurer les risques non assurables liés à l'IA : l'État comme assureur de dernier recours

Preuves empiriques de l'influence du modèle de langage large sur la communication orale humaine

Les dangers de l'optimisation des fonctions de récompense apprises : une faible erreur d'apprentissage ne garantit pas un faible regret

Des LLM aux actions : les codes latents comme passerelles dans le contrôle hiérarchique des robots

Apprentissage fédéré aligné sur la courbure (CAFe) : harmoniser les paysages de perte pour une équité sans données démographiques

CoDy : Explications contrefactuelles pour les graphiques dynamiques

Transport optimal pour l'adaptation de domaine grâce à des modèles de mélange gaussien

Apprentissage de bases de données de graphes neuronaux fédérés pour répondre à des requêtes complexes à partir de graphes de connaissances distribués

Détection de publications textuelles à forte valeur ajoutée sur les réseaux sociaux russes

Les réseaux neuronaux profonds ont un rasoir d'Occam intégré

TT-TFHE : une architecture de réseau neuronal entièrement homomorphe et compatible avec le chiffrement en tore

SciMaster : Vers des agents d'IA scientifiques à usage général, partie I. X-Master comme fondation : pouvons-nous diriger le dernier examen de l'humanité ?

Rapport technique MedGemma

Apprentissage de règles pour le raisonnement sur les graphes de connaissances sous un décalage de distribution agnostique

Pilotage d'activation pour la compression de la chaîne de pensée

Défis et tendances de la vision égocentrique : une enquête

Created by

Haebom

Auteur

Xiang Li, Heqian Qiu, Lanxiao Wang, Hanwen Zhang, Chenghao Qi, Linfeng Han, Huiyu Xiong, Hongliang Li

Contour

Cet article propose un aperçu complet des recherches sur la compréhension de la vision égocentrique, un domaine qui suscite un intérêt croissant grâce aux progrès de l'intelligence artificielle et des objets connectés. La vision égocentrique, qui capture des données visuelles et multimodales grâce à des caméras ou des capteurs portés sur le corps, offre une perspective unique pour simuler l'expérience visuelle humaine. Dans cet article, nous analysons systématiquement les composantes de la vision égocentrique, classons les tâches en quatre grands domaines : compréhension du sujet, compréhension de l'objet, compréhension de l'environnement et compréhension mixte, et explorons en détail les sous-tâches de chaque catégorie. De plus, nous résumons les principales tâches et tendances du domaine, et fournissons un aperçu des ensembles de données de haute qualité sur la vision égocentrique afin de fournir des ressources précieuses pour les recherches futures. Nous résumons les dernières avancées et anticipons de vastes applications de la technologie de la vision égocentrique dans des domaines tels que la réalité augmentée, la réalité virtuelle et l'intelligence incarnée, et suggérons des orientations de recherche futures basées sur ces dernières avancées.

Takeaways, Limitations_

•

Takeaways : Analyse exhaustive des dernières tendances et des principales problématiques de la recherche sur la compréhension visuelle égocentrique, et propose des orientations de recherche futures, fournissant ainsi des lignes directrices importantes pour la recherche dans des domaines connexes. Fournit des ressources utiles aux chercheurs grâce à une vue d'ensemble d'ensembles de données de haute qualité. Propose des applications potentielles dans divers domaines tels que la réalité augmentée, la réalité virtuelle et l'intelligence implémentée.

•

Limitations: Cet article offre un aperçu complet du domaine de la compréhension visuelle égocentrique, mais peut manquer d'analyse approfondie de techniques ou d'algorithmes spécifiques. De plus, en raison du développement rapide de ce domaine, de nouveaux résultats de recherche peuvent apparaître après la publication de l'article, et ces recherches récentes pourraient ne pas être prises en compte.

Voir le PDF

Made with Slashpage