Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Optimisation des récompenses de processus autoguidées avec un avantage étape par étape redéfini pour l'apprentissage par renforcement des processus

Créer des Hanzi comme passerelles narratives : un atelier de co-création d'IA pour les migrants âgés

Acteur-critique souple distributionnel avec politique de diffusion

Skywork-Reward-V2 : Adaptation de la conservation des données de préférences grâce à la synergie homme-IA

Division rapide des modèles d'IA sur les réseaux Edge

Des phrases aux séquences : repenser les langages dans les systèmes biologiques

MTCNet : Apprentissage guidé par la cohérence du mouvement et de la topologie pour la segmentation de la valve mitrale en échographie 4D

Horus : un protocole de délégation sans confiance en cas d'incertitude

Mélange de raisonnements : apprendre aux grands modèles linguistiques à raisonner avec des stratégies adaptatives

Analyse comparative de la manipulation bimanuelle généralisable : défi de collaboration à deux bras RoboTwin lors de l'atelier MEIS CVPR 2025

Red Teaming pour l'IA générative : rapport sur un exercice axé sur le droit d'auteur réalisé dans un centre médical universitaire

AirV2X : collaboration unifiée entre véhicules air-sol et tout

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Alignement des LLM gelés par apprentissage par renforcement : une approche itérative de repondération puis d'optimisation

Distinguer l'IA prédictive et générative dans la réglementation

Un sondage, rien d'autre ? Utiliser de grands modèles linguistiques pour coder les réponses ouvertes en allemand sur la motivation.

Restauration d'images textuelles avec modèles de diffusion

Dans quelle mesure les politiques de mot de passe générées par LLM sont-elles efficaces ?

Vers une comparaison et un alignement explicables des intégrations de fonctionnalités

Empreinte digitale de modèle basée sur le gradient pour la détection de similarité LLM et la classification des familles

Renforcer l'économie intelligente à basse altitude grâce au déploiement de modèles d'IA à grande échelle

Intégration des LLM pour la simulation de mobilité urbaine complexe à grande échelle

Génération d'hypothèses de graphes causaux dynamiques en neurosciences : Exploitation des modèles factoriels génératifs de séries temporelles observées

Voyager à travers les langues : évaluation de la cohérence interlinguistique dans les LLM multimodaux

Modélisation des menaces pour l'IA : Plaidoyer pour une approche centrée sur les actifs

SoccerDiffusion : Vers un apprentissage complet du football robotisé humanoïde à partir d'enregistrements de gameplay

PAD : Fusion par découplage phase-amplitude pour la classification multimodale de la couverture terrestre

Indices de significativité pour les valeurs d'accord

Substituts transférables dans les espaces de recherche d'architecture neuronale expressive

Analyse du flux de travail du bloc opératoire préservant la confidentialité à l'aide de jumeaux numériques

Segmentation tumorale grossière à fine guidée par l'incertitude avec post-traitement tenant compte de l'anatomie

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Commander-GPT : exploiter pleinement la capacité de détection du sarcasme des grands modèles linguistiques multimodaux

Atténuation des biais basée sur la compréhension pour une segmentation CMR équitable

HAPI : un modèle pour l'apprentissage des expressions faciales des robots à partir des préférences humaines

MaizeField3D : un ensemble de données de nuage de points 3D et de modèles procéduraux de maïs cultivé en plein champ à partir d'un panel de diversité

Estimation de l'illuminant et de la direction de la lumière à l'aide de la méthode de distance de Wasserstein

Limites fondamentales de l'agrégation sécurisée hiérarchique avec association d'utilisateurs cyclique

LLM - Prédiction optimisée de l'hyperglycémie et découverte de voies de traitement comportementales à partir d'objets connectés et de l'alimentation

Diffusion de Gibbs entrelacée : génération de données discrètes continues avec contraintes implicites

EquiTabPFN : un réseau ajusté a priori équivariant à permutation cible

Réglage des circuits : une approche mécaniste pour identifier la redondance des paramètres et affiner les réseaux neuronaux

EigenLoRAx : Recyclage des adaptateurs pour trouver des sous-espaces principaux pour une adaptation et une inférence économes en ressources

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

Activation du parallélisme au niveau de la population dans la programmation génétique arborescente pour une accélération GPU complète

Paramètres vs FLOP : lois d'échelle pour une parcimonie optimale pour les modèles de langage à mélange d'experts

Quantification de l'importance de l'alignement des données dans les performances du modèle en aval

Découverte causale améliorée par technologie quantique pour un petit nombre d'échantillons

Sur les caractérisations pour la génération du langage : interaction entre hallucinations, ampleur et stabilité

Préfixe de jeton : une approche sans formation pour obtenir de meilleures incorporations de phrases à partir des LLM

COEF-VQ : Compréhension de la qualité vidéo rentable grâce à un cadre LLM multimodal en cascade

GeMID : modèles généralisables pour l'identification des appareils IoT

La tâche de prédiction du prochain jeton suppose un ordre optimal des données pour la formation LLM dans la génération de preuves

Répondre à des requêtes complexes est-il vraiment complexe ?

Navigation aérienne par vision et langage via une représentation sémantique-topo-métrique Raisonnement LLM guidé

Apprentissage par renforcement hors ligne pour l'apprentissage de la répartition pour la planification des ateliers

Reconsidérer l'efficacité énergétique des réseaux neuronaux à pointes

Exploration de l'intégration de grands modèles linguistiques dans les processus de maintenance des tests industriels

Formation préalable au guidage des mouvements de la sonde d'échocardiographie en fonction des séquences

Modèles anatomiques fondamentaux pour les IRM cérébrales

Apprendre des étiquettes bruyantes issues du crowdsourcing : une perspective de traitement du signal

Quantification des écarts intersectoriels entre groupes multiples à l'aide d'une analyse de classe latente en vue d'une plus grande équité

Se plonger dans l'écriture assistée par LLM dans les publications biomédicales grâce à un vocabulaire excédentaire

Vers une nouvelle mesure de la confiance des utilisateurs dans les systèmes XAI

ÉViter les catastrophes dans l'apprentissage en ligne en demandant de l'aide

Améliorer la robustesse de la reconnaissance d'entités nommées supervisées à distance grâce à l'apprentissage par l'enseignant conscient de l'incertitude et à l'apprentissage collaboratif entre élèves

Au-delà de l'échelle : le coefficient de diversité comme mesure de la qualité des données pour la variabilité des données en langage naturel

Apprentissage par renforcement inverse bayésien à densité de noyau

Agents d'IA incarnés : Modéliser le monde

Mind2Web 2 : Évaluation de la recherche agentique avec l'agent-juge

AI Flow : perspectives, scénarios et approches

Un cadre pour le raisonnement conditionnel dans la programmation par ensemble de réponses

L'autoformalisation à l'ère des grands modèles linguistiques : une enquête

Observabilité des processus d'IA agentique : découverte de la variabilité comportementale

Rapport sur l'indice d'intelligence artificielle 2025

MAPS : Faire progresser le raisonnement multimodal dans les sciences physiques de niveau expert

XGeM : un modèle de fondation multi-invite pour la génération de données médicales multimodales

Optimisation des préférences directes à l'aide de contraintes au niveau des fonctionnalités clairsemées

Cognition non supervisée

Pré-formation et incitation en région urbaine : une approche basée sur des graphiques

Générateur de graphiques routiers : cartographie des routes sur les chantiers de construction à partir de données GPS

Point3R : Reconstruction 3D en continu avec mémoire de pointeur spatial explicite

LiteReality : Reconstruction de scènes 3D prêtes pour les graphiques à partir de numérisations RVB-D

La correspondance des réponses surpasse le choix multiple pour l'évaluation des modèles de langage

Sous-typage dans DHOL – Préimpression étendue

MOTIF : Pensée modulaire via le renforcement et le perfectionnement dans les LLM

USAD : un réseau de diffusion d'attention spatio-temporelle à augmentation de données non supervisée

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

SynapseRoute : un framework de commutation automatique d'itinéraires sur un modèle de langage à double état

Banc d'autocorrection : révéler et traiter l'angle mort de l'autocorrection dans les LLM

Analyse de scènes auditives multi-agents

Rapide et simplexe : attention 2-simpliciale dans Triton

Synthétisable par conception : un cadre guidé par rétrosynthèse pour la génération d'analogues moléculaires

Attention linéaire avec contexte global : un mécanisme d'attention multipolaire pour la vision et la physique

Premiers signes de capacités stéganographiques dans les LLM de Frontier

Meta SecAlign : un LLM de base sécurisé contre les attaques par injection rapide

FairHuman : Améliorer la qualité des mains et des visages dans la génération d'images humaines avec un délai potentiel minimal Équité dans les modèles de diffusion

APT : Formation personnalisée adaptative pour les modèles de diffusion avec données limitées

ASDA : Mécanisme d'attention différentielle par spectrogramme audio pour l'apprentissage auto-supervisé des représentations

ChemActor : Amélioration de l'extraction automatisée des actions de synthèse chimique grâce aux données générées par LLM

Created by

Haebom

Auteur

Yu Zhang, Ruijie Yu, Jidong Tian, Feng Zhu, Jiapeng Liu, Xiaokang Yang, Yaohui Jin, Yanyan Xu

Contour

Cet article s'appuie sur l'intérêt croissant pour la synthèse robotique en chimie organique, qui a rendu importante l'extraction automatique de procédures chimiques issues de la littérature. Cette tâche demeure complexe en raison de l'ambiguïté du langage chimique et du coût humain élevé nécessaire au développement de protocoles d'extraction assistée par ordinateur fiables. Dans cet article, nous présentons ChemActor, un modèle de langage à grande échelle (LLM) entièrement optimisé, utilisé comme exécuteur chimique pour la traduction entre procédures expérimentales non structurées et séquences de tâches structurées. Pour résoudre le problème de l'insuffisance et de la mauvaise qualité des données annotées, nous proposons un cadre de données de génération de LLM séquentiel. Ce cadre intègre un module de sélection de données basé sur des branches distributionnelles, ainsi qu'un LLM polyvalent générant des tâches exécutables par machine à partir d'entrées de molécules uniques. Nous introduisons également une nouvelle métrique de revue récursive LLM multi-tours, reflétant la compréhension avancée du modèle des procédures expérimentales chimiques. Des expériences approfondies sur les tâches de réaction à description (R2D) et de description à action (D2A) montrent que ChemActor, enrichi de données générées par LLM, atteint des performances de pointe, supérieures de 10 % à celles des modèles de référence. Le code est disponible à l'adresse https://github.com/Zhanghahah/ChemActor .

GitHub - Zhanghahah/ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data

Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data - Zhanghahah/ChemActor

github.com

Takeaways, Limitations

•

Takeaways:

◦

Présentation de nouvelles possibilités d'extraction automatisée de procédures chimiques basées sur LLM

◦

Proposer une solution au problème de pénurie de données en utilisant les données générées par LLM

◦

Améliorer les performances du modèle et accroître la compréhension grâce à des mesures d'examen circulaire LLM à plusieurs tours

◦

Obtenir une technologie de pointe avec des performances améliorées de 10 % par rapport aux modèles existants

◦

Assurer la reproductibilité et l'extensibilité de la recherche grâce à la divulgation du code source ouvert

•

Limitations:

◦

Une validation supplémentaire de la qualité et de la fiabilité des données générées par LLM est nécessaire

◦

Nécessité d'une évaluation généralisée des performances pour diverses réactions chimiques et procédures expérimentales

◦

L'intégration avec des systèmes robotiques réels et une validation expérimentale sont nécessaires.

◦

Des recherches supplémentaires sont nécessaires sur l’interprétabilité et l’explicabilité du LLM

Voir le PDF

Made with Slashpage