Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ELV-Halluc : Analyse comparative des hallucinations d'agrégation sémantique dans la compréhension de longues vidéos

Quantification du biais induit par les étiquettes dans les auto-évaluations et les évaluations croisées des grands modèles linguistiques

R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Modèles de langage et programmes logiques pour un raisonnement financier fiable

Robustesse à l'occlusion du CLIP pour la classification des véhicules militaires

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

DrugReasoner : prédiction interprétable de l'approbation des médicaments grâce à un modèle de langage enrichi par le raisonnement

Réseau multimodal de fusion dynamique pour la détection du bien-être de la parole

IA agentique pour les logiciels : réflexions de la communauté du génie logiciel

CoViPAL : Élagage de jetons visuels contextualisés par couche pour les grands modèles vision-langage

L'affirmation de soi LLM peut être décomposée mécaniquement en composantes émotionnelles et logiques

ONG : Descente de gradient naturel orthogonal

Tri-Accel : optimisation adaptative de précision et élastique de la mémoire tenant compte de la courbure pour une utilisation efficace du GPU

GPT-OSS-20B : Analyse complète centrée sur le déploiement du modèle Open-Weight Mixture of Experts d'OpenAI

Relier la généralisation et la personnalisation dans la reconnaissance d'activité humaine via l'apprentissage en quelques étapes sur l'appareil

SparK : parcimonie non structurée tenant compte des requêtes avec élagage récupérable des canaux de cache KV

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

FLAIR : représentations neuronales implicites sensibles à la fréquence et à la localité

Fonction d'évaluation hiérarchique : une approche multimétrique pour optimiser les modèles de prévision de la demande

Apprentissage de prototypes locaux et globaux avec transport optimal pour la détection et la localisation d'anomalies non supervisées

Correspondance de flux quantique

BConformeR : un conformateur basé sur l'échantillonnage mutuel pour la prédiction unifiée des sites de liaison d'anticorps continus et discontinus

Prédicateur : Système agentique papier-vidéo

UQGNN : Quantification de l'incertitude des réseaux neuronaux graphiques pour la prédiction spatio-temporelle multivariée

Grid2Guide : un petit modèle de langage activé par A* pour la navigation intérieure

ACD-CLIP : Découplage de la représentation et fusion dynamique pour la détection d'anomalies à tir nul

MAQuA : Questionnement adaptatif pour le dépistage multidimensionnel de la santé mentale à l'aide de la théorie de la réponse aux items

Classe sans biais pour la généralisation dans le diagnostic médical

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Grid-Agent : un système multi-agents basé sur LLM pour le contrôle du réseau électrique

CF3 : Champs de caractéristiques 3D compacts et rapides

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Une couche neurosymbolique inspirée de DbC pour une conception d'agent fiable

Analyse de convergence de l'agrégation-diffusion dans le réglage fin distribué compatible LoRA

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

AR-LIF : neurone à réinitialisation adaptative et à intégration et déclenchement de fuites pour les réseaux neuronaux à pointes

Un cadre catégorique de Markov pour la modélisation du langage

Vers un apprentissage en contexte optimisé par calcul et à plusieurs plans

Analyse comparative de la reconnaissance de la confidentialité des LLM pour la prise de décision des robots sociaux

Modèles de diffusion pour la prévision des séries chronologiques : une enquête

GPI-Net : réseau d'interaction parallèle guidé par la Gestalt via la cohérence géométrique orthogonale pour un enregistrement robuste des nuages de points

ExCyTIn-Bench : évaluation des agents LLM sur les enquêtes sur les cybermenaces

Superintelligence ascendante spécifique au domaine : un graphe de connaissances fiable est ce dont nous avons besoin

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Agentic-R1 : Raisonnement à double stratégie distillé

La conduite comme outil de diagnostic : évaluation cognitive basée sur des scénarios chez les conducteurs âgés à partir d'une vidéo de conduite

MedVAL : Vers une validation de textes médicaux de niveau expert avec des modèles linguistiques

NOCTIS : nouvelle segmentation d'instance basée sur un seuil cyclique d'objet

RALLY : Navigation attelée adaptative pilotée par LLM pour les essaims de drones agents

Distillation itérative pour un réglage fin guidé par la récompense des modèles de diffusion dans la conception biomoléculaire

Vers des réseaux neuronaux à pics efficaces et précis grâce à l'allocation adaptative des bits

Score modulé en flux pour la complétion du graphe de connaissances sémantique

TPTT : Transformer des Transformers pré-entraînés en Titans

Quel est l'intérêt de l'égalité dans l'apprentissage automatique ? Au-delà de l'égalité des chances

QGuard : Protection zéro-coup basée sur des questions pour la sécurité LLM multimodale

Un cadre théorique pour l'apprentissage contrastif auto-supervisé pour les données dépendantes continues

LLMEval-Med : une référence clinique concrète pour les masters de médecine validés par un médecin

Invite automatique SQL : une architecture économe en ressources pour la traduction de texte en SQL dans des environnements contraints

ÉTiquetage des données avec des références inconnues

FinS-Pilot : une référence pour les systèmes RAG financiers en ligne

Diagnostic de la fiabilité de l'édition d'images médicales guidée par texte

Accélération des hyperheuristiques avec la sélection d'opérateurs de chaîne de Markov et l'opérateur d'acceptation à seule détérioration

Un modèle de base polyvalent pour les tâches d'analyse d'images par résonance magnétique cardiaque ciné

Dois-je partager cette traduction ? Évaluation des retours de qualité pour évaluer la confiance des utilisateurs dans la traduction automatique.

Plusieurs agents LLM débattent d'un alignement culturel équitable

Notation automatisée des essais intégrant les annotations des systèmes de rétroaction automatisés

Les NeRF peuvent-ils voir sans caméra ?

DiffDecompose : décomposition par couche d'images alpha-composées via des transformateurs de diffusion

Le défi des dons cachés dans l'apprentissage par renforcement multi-agents

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Cog-TiPRO : Affinement itératif des invites avec LLM pour détecter le déclin cognitif via des commandes d'assistant vocal longitudinales

Des jetons aux pensées : comment les LLM et les humains échangent la compression contre du sens

Dévoiler des descriptions multi-images pour la détection multilingue des troubles cognitifs légers via l'apprentissage contrastif

Vers un football coopératif et compétitif dans le monde réel avec des équipes de robots quadrupèdes

FreqSelect : reconstruction d'images IRMf en fonction de la fréquence

ViEEG : représentation neuronale visuelle hiérarchique pour le décodage EEG du cerveau

Dominance en un coup : attaque par empoisonnement des connaissances sur les systèmes de génération augmentée par récupération

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

ManipBench : Analyse comparative des modèles vision-langage pour la manipulation robotique de bas niveau

Masques PINN : atténuation des variations de covariables internes dans les réseaux neuronaux basés sur la physique

ORBIT-2 : Mise à l'échelle des modèles exascale de la Fondation Vision pour la réduction d'échelle des conditions météorologiques et climatiques

FairPO : optimisation robuste des préférences pour un apprentissage multi-étiquettes équitable

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

GenTorrent : Mise à l'échelle d'un modèle linguistique volumineux avec un réseau superposé

Tilus : un langage de programmation GPGPU au niveau des tuiles pour le calcul de faible précision

Progent : Contrôle de privilèges programmable pour les agents LLM

Un algorithme basé sur le déploiement et une fonction de récompense pour l'allocation des ressources dans les processus métier

Agent-Q : Affiner les modèles de langage volumineux pour la génération et l'optimisation de circuits quantiques

Un modèle hybride de transformateur CNN entièrement convolutif pour la détection de maladies intrinsèquement interprétables à partir d'images du fond d'œil de la rétine

Plus de rentabilité : modélisation des récompenses de processus avec incertitude induite par l'entropie

LATTE-MV : Apprendre à anticiper les coups de tennis de table grâce aux vidéos monoculaires

Apprentissage inversé : effacement faiblement supervisé pour segmenter les nodules en échographie mammaire

Optimisation de la détection du cancer du sein dans les mammographies : une étude approfondie de l'apprentissage par transfert, de la réduction de la résolution et de la classification multi-vues

Démasquer les visuels trompeurs : analyse comparative des modèles linguistiques multimodaux volumineux sur la réponse aux questions graphiques trompeuses

Réponse aux questions du tableau général via la génération conjointe de formules de réponse

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

MOHPER : Cadre d'optimisation multi-objectifs hyperparamétrique pour système de récupération de données de commerce électronique

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

Created by

Haebom

Auteur

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

Contour

SPGrasp est un nouveau framework pour la synthèse interactive de préhension en temps réel d'objets dynamiques. Afin de relever les défis des méthodes existantes, qui peinent à obtenir simultanément une inférence à faible latence et une promptabilité, nous présentons une méthode qui étend SAMv2 à l'estimation de la préhension des flux vidéo. En intégrant les invites utilisateur et le contexte spatio-temporel, nous permettons une interaction en temps réel avec une latence de bout en bout pouvant atteindre 59 ms, tout en garantissant la cohérence temporelle des objets dynamiques. Nous obtenons une précision élevée (respectivement 90,6 % et 93,8 %) sur les jeux de données OCID et Jacquard, et sur le jeu de données GraspNet-1Billion, nous atteignons une précision de 92,0 % avec une latence d'image de 73,1 ms, soit une amélioration de 58,5 % par rapport au modèle de pointe précédent. Lors d'expériences avec 13 objets en mouvement réels, nous obtenons un taux de réussite de 94,8 %, démontrant que notre approche résout efficacement le compromis entre latence et interactivité dans la synthèse de préhension dynamique.

Takeaways, Limitations

•

Takeaways:

◦

ÉTend SAMv2 pour permettre la synthèse de préhension interactive en temps réel pour les objets dynamiques.

◦

Obtenez à la fois une faible latence (jusqu'à 59 ms) et une grande précision en intégrant les invites utilisateur et le contexte spatio-temporel.

◦

Vitesse et précision améliorées vérifiées expérimentalement par rapport aux modèles les plus performants existants.

◦

Praticité prouvée grâce à un taux de réussite élevé (94,8 %) dans des environnements réels.

•

Limitations:

◦

ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation sur d’autres ensembles de données ou environnements.

◦

La robustesse à diverses situations dans des environnements réels (par exemple, changements d’éclairage, mouvements d’objets complexes) nécessite des recherches supplémentaires.

◦

Avec un temps de traitement de 73,1 ms par image, il peut ne pas être suffisant pour les tâches qui nécessitent des mouvements extrêmement rapides.

Voir le PDF

Made with Slashpage