Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transfert de structure : un calcul basé sur l'inférence pour la transformation des représentations

Ensemble de modèles de base de pathologie pour MIDOG 2025, piste 2 : Classification de la mitose atypique

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.

DaMoC : Sélection efficace du modèle de langage optimal pour affiner les tâches du domaine en fonction de la compression des données et du modèle

Techniques modulaires pour la génération de données synthétiques à contexte long dans l'apprentissage et l'évaluation de modèles de langage

EZhouNet : un cadre basé sur un réseau neuronal graphique et un intervalle d'ancrage pour la détection d'événements sonores respiratoires

AImoclips : une référence pour évaluer la transmission des émotions dans la conversion de texte en musique

TimeCopilot

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

ÉTude pilote sur l'IA générative et la pensée critique dans les classes de l'enseignement supérieur

Beacon : Quantification post-formation avec sélection de grille intégrée

L’intelligence artificielle est-elle en train de remodeler le paysage de la communauté académique internationale des géosciences ?

Attention vectorisée avec codage apprenable pour Quantum Transformer

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

Synergie profondeur-étendue dans RLVR : exploiter les gains de raisonnement LLM grâce à l'exploration adaptative

MultiGen : Générateur de discours multilingue adapté aux enfants avec LLM

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

IA au niveau de la rue : les grands modèles linguistiques sont-ils prêts pour les jugements du monde réel ?

Le langage de schéma conceptuel KG-ER

Mode à profusion ! Multi-conditionnement pour la génération d'images par association croquis-texte

Génération vidéo conditionnelle pour une compression vidéo haute efficacité

TriCLIP-3D : un cadre unifié et efficace en termes de paramètres pour la mise à la terre visuelle 3D trimodale basée sur CLIP

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Une analyse des méthodes de différence temporelle de valeur d'action qui apprennent les valeurs d'état

Décomposition des paramètres stochastiques

Auto-régressif vs Flow-Matching : une étude comparative des paradigmes de modélisation pour la génération de texte en musique

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

ÉValuation de l'efficacité du raisonnement basé sur LLM pour la planification de tâches HPC multi-objectifs

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Optimisation de la transférabilité des modules en super-résolution d'image unique : évaluation de l'universalité et blocs résiduels de cycle

Transformateur de masque transférable : segmentation sémantique inter-domaines avec estimation de la transférabilité adaptative à la région

RBT4DNN : Tests basés sur les exigences des réseaux neuronaux

Apprentissage par imitation hors ligne robuste grâce à l'assemblage de trajectoires au niveau de l'état

Au-delà de l'holographie : les fondements de la gravité quantique entropique du traitement d'images

KNighter : Transformer l'analyse statique avec des vérificateurs synthétisés par LLM

FRIDA à la rescousse ! Analyse de l'efficacité des données synthétiques dans le raisonnement de bon sens basé sur les objets pour la réponse aux catastrophes.

CoDiff : modèle de diffusion conditionnelle pour la détection collaborative d'objets 3D

Apprentissage rapide des mots grâce à l'apprentissage méta-contextuel

Méthode d'échantillonnage par incorporation d'images pour divers sous-titres

Un modèle de fondation basé sur une image naturelle ultra-large est-il supérieur à un modèle spécifique à la rétine pour détecter les maladies oculaires et systémiques ?

Score des valeurs aberrantes basé sur l'histogramme étendu (EHBOS)

ÉTude de la génération augmentée de graphiques pour les modèles de langage personnalisés de grande taille

Briser le goulot d'étranglement contextuel sur les prévisions de séries chronologiques longues

Défense des LVLM contre les attaques visuelles grâce à la supervision de la perception partielle

ACING : Acteur-critique pour l'apprentissage pédagogique dans les LLM en boîte noire

Apprentissage expérientiel basé sur Kolb pour agents généralistes avec des performances scientifiques de niveau humain avec Kaggle

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux grâce à une théorie fondée sur des preuves

Formation robuste de modèles génératifs implicites pour les distributions multivariées et à queue lourde avec une perte statistique invariante

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

AutoPETIII : La frontière du Tracer. Quelle frontière ?

Réseau à séquences d'entrée longues pour la prévision de séries chronologiques longues

FFHFlow : Génération de saisie adroite diversifiée et sensible à l'incertitude via l'inférence variationnelle de flux

Unisolver : Transformateurs conditionnels d'EDP vers des solveurs neuronaux universels d'EDP

MTP : une abstraction de langage typée par le sens pour la programmation intégrée à l'IA

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Transfert de style vers les bandes dessinées Calvin et Hobbes à l'aide de Stable Diffusion

Autonomisation, pas automatisation : activités et besoins des vérificateurs de faits européens comme base pour la conception de systèmes d'IA centrés sur l'humain

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Extension de FKG.in : vers un réseau de traçabilité des allégations alimentaires

DeepVIS : relier le langage naturel et la visualisation des données grâce au raisonnement par étapes

Théorie de l'esprit utilisant l'inférence active : un cadre pour la coopération multi-agents

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Axiomatique des choix restreints par ordres linéaires d'ensembles avec minimum comme solution de repli

Invite guidée par DMN : un cadre pour contrôler le comportement LLM

Bases informatiques de la prise de décision en simulation sociale au LLM

La science à travers les langues : évaluation de la traduction multilingue d'articles scientifiques dans le cadre d'un master en droit

Amélioration de FKG.in : automatisation de l'analyse de la composition des aliments indiens

WASP : une approche pondération-espace pour détecter les faussetés apprises

Modèle de croyance transférable sur les circuits quantiques

PIN : un ensemble de données à forte intensité de connaissances pour les documents multimodaux appariés et entrelacés

(Ir)rationalité en IA : état de l'art, défis de recherche et questions ouvertes

Manuel de renseignement

ChronoGraph : un ensemble de données chronologiques multivariées basé sur des graphiques du monde réel

Activations Delta : une représentation pour les modèles de langage volumineux affinés

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Pas de pensées, juste de l'IA : les recommandations biaisées des LLM limitent l'intervention humaine dans la sélection des CV

IPA : un cadre de projection d'entrée préservant l'information pour une adaptation efficace du modèle de fondation

SSGaussian : transfert de style 3D sensible à la sémantique et préservant la structure

Prévision de la disponibilité du stationnement via la fusion de données multi-sources avec un transformateur inversé spatio-temporel amélioré par apprentissage auto-supervisé

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

AUDETER : un ensemble de données à grande échelle pour la détection de deepfakes audio dans les mondes ouverts

De l'éditeur à l'estimateur de géométrie dense

Apprentissage de la représentation d'entités découplées pour le classement des publicités Pinterest

Les faits s'estompent rapidement : évaluation de la mémorisation des connaissances médicales obsolètes dans de grands modèles linguistiques

HumAine-Chatbot : IA conversationnelle personnalisée en temps réel via l'apprentissage par renforcement

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

Une étude empirique des vulnérabilités dans les packages Python et leur détection

Combien de patients pourrions-nous sauver avec des antécédents de LLM ?

Apprentissage de la perception active via l'optimisation des préférences auto-évolutives pour la mise à la terre de l'interface utilisateur graphique

MAGneT : Génération multi-agents coordonnée de séances synthétiques de conseil en santé mentale à plusieurs tours

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Ensemble YOLO pour la détection multispectrale des défauts dans les composants des éoliennes par drone

L'attention comme filtre adaptatif

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Amélioration de la recherche de documents techniques pour RAG

CoreThink : une couche de raisonnement symbolique pour raisonner sur des tâches à long terme avec des LLM

Created by

Haebom

Auteur

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

Contour

CoreThink est une couche d'inférence de pointe basée sur une nouvelle méthode d'inférence appelée General Symbolics. Elle se distingue des paradigmes d'inférence existants tels que la mise à l'échelle en temps de test, le réglage fin supervisé (SFT) et l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Le CoreThink General Symbolic Reasoner (GSR) s'articule autour de trois cas d'utilisation clés : l'invocation d'outils, la génération de code et la planification. Il affiche des performances exceptionnelles sur sept benchmarks dans chaque domaine. Plus précisément, il a obtenu des scores de performance de pointe (SOTA) de 66,66 % sur Livecodebench v6, 89 % sur Instruction-Following Evals et 24,4 % sur ARC-AGI-2. De plus, nous présentons un IDE de codage d'agents développé selon les principes de General Symbolics, atteignant une précision de pointe de 62,3 % sur SWE-Bench Lite. Cette amélioration des performances a été obtenue sans frais de réglage fin ni de formation. La couche d'inférence CoreThink est conçue pour offrir des gains de performance purs, garantissant que la précision des tâches d'inférence du modèle ne se dégrade jamais. Les auteurs affirment que les méthodes existantes entraîneront à terme une baisse des performances du LLM, nécessitant le développement de nouvelles techniques d'inférence. Ce rapport technique détaille l'approche CoreThink à un niveau élevé et la disponibilité des modèles CoreThink pour les cas d'utilisation intensifs en inférence.

Takeaways, Limitations

•

Takeaways:

◦

Présentation de CoreThink, une nouvelle méthode de raisonnement basée sur la symbolique générale.

◦

Performances exceptionnelles par rapport aux méthodes existantes (SFT, RLVR, etc.) (SOTA obtenu dans plusieurs benchmarks dont Livecodebench v6, Instruction-Following Evals, ARC-AGI-2, SWE-Bench Lite, etc.).

◦

Obtenez des gains de performance sans les coûts de réglage fin et de formation.

◦

Ouverture de modèles pour les cas d'utilisation intensifs en inférence.

◦

Suggérant la nécessité de nouvelles techniques d’inférence pour améliorer les performances du LLM.

•

Limitations:

◦

Les détails spécifiques de la méthode Symbolique Générale présentés dans cet article ne sont pas décrits en détail.

◦

Bien qu'il ait montré d'excellentes performances dans divers benchmarks, ses performances dans certains benchmarks étaient relativement faibles (par exemple ARC-AGI-2 24,4 %).

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation et l’évolutivité de la symbolique générale.

◦

Une validation supplémentaire des applications pratiques et des limites de CoreThink est nécessaire.

Voir le PDF

Made with Slashpage