Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Au-delà du risque : un prototype de cadre pour évaluer l'impact sociétal des systèmes d'IA

Réduction dimensionnelle dynamique supervisée avec réseau neuronal profond

EmoSteer-TTS : synthèse vocale fine et sans formation, contrôlable par les émotions via le pilotage par activation

Les LLM ont un cœur de pierre : démystifier la capacité de réflexion douce des grands modèles de raisonnement

Optimisation de code industrielle basée sur LLM sous réglementation : une approche par mélange d'agents

Protocole d'évaluation fiable pour la récupération de faible précision

Landsat30-AU : un ensemble de données vision-langage pour l'imagerie Landsat australienne

Apprentissage par renforcement intégré aux outils pour la recherche approfondie dans les référentiels

CauKer : les modèles de base de séries chronologiques de classification peuvent être pré-entraînés uniquement sur des données synthétiques

Intégration multi-invites adaptative au contexte avec de grands modèles de langage pour l'alignement vision-langage

DMSC : Cadre de coordination multi-échelle dynamique pour la prévision des séries chronologiques

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Apprentissage de la représentation des entités via un graphique sur site/hors site pour les publicités Pinterest

ÉValuation de l'expérience utilisateur dans les systèmes de recommandation conversationnelle : une revue systématique des approches classiques et basées sur le LLM

Connaissance des fréquences spatiales pour la détection d'objets dans les images RAW

Apprentissage de la manipulation pivotante avec retour de force et de vision à l'aide de démonstrations basées sur l'optimisation

NCCR : évaluer la robustesse des réseaux neuronaux et des exemples contradictoires

ChartM$^3$ : Analyse comparative de l'édition de graphiques avec des instructions multimodales

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

EcoTransformer : Attention sans multiplication

Les confettis de Bob : attaques de mémorisation phonétique dans la création musicale et vidéo

SDBench : une suite complète de benchmarks pour la diarisation des locuteurs

Un véritable apprentissage multimodal en contexte nécessite une attention au contexte visuel

Modèles de débit de jauge

Recherche d'architecture neuronale à zéro coup avec corrélation de réponse pondérée

Le côté obscur des LLM : attaques basées sur des agents pour une prise de contrôle complète des ordinateurs

CAVGAN : Unifier le jailbreak et la défense des LLM via des attaques antagonistes génératives sur leurs représentations internes

VOTE : Optimisation vision-langage-action avec le vote d'ensemble de trajectoires

ÉTude comparative des LLM spécialisés en tant que récupérateurs denses

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

UnMix-NeRF : le démixage spectral rencontre les champs de rayonnement neuronal

Ancrages de pensée : quelles étapes du raisonnement LLM sont importantes ?

UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Modèles de fondation fédérés multimodaux et multitâches pour les systèmes de réalité étendue de nouvelle génération : vers une intelligence distribuée préservant la confidentialité en RA/RV/RM

Le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

CAIN : Détournement de LLM – Conversations humaines via des invites système malveillantes

Expliquez moins, comprenez plus : détection du jargon grâce à un réglage fin personnalisé et efficace des paramètres

Qu'est-ce qui vit ? Une méta-analyse de diverses opinions sur la définition de la vie.

Un recuit neuronal génératif pour l'optimisation combinatoire en boîte noire

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

CostFilter-AD : Amélioration de la détection des anomalies grâce au filtrage des coûts correspondants

Mj\"olnir : un cadre de paramétrisation d'apprentissage profond pour la densité globale des éclairs

Reconnaissance des attributs piétons basée sur les événements RVB : un ensemble de données de référence et un cadre de fusion RWKV asymétrique

ProtoECGNet : Apprentissage profond interprétable basé sur des cas pour la classification d'ECG multi-étiquettes avec apprentissage contrastif

Au-delà des images grand angle : correction de la structure des portraits vidéo en détail via une adaptation spatio-temporelle non supervisée

CITRAS : Transformateur informé par covariable pour la prévision des séries chronologiques

Une rubrique suffit : Améliorer l'évaluation du code basée sur la LLM grâce à des rubriques spécifiques aux questions

Analyse empirique de la co-formation en simulation et en réel des politiques de diffusion pour la poussée planaire à partir de pixels

SimpleRL-Zoo : Enquête et maîtrise de l'apprentissage par renforcement zéro pour les modèles à base ouverte dans la nature

NuPlanQA : un ensemble de données à grande échelle et une référence pour la compréhension de scènes de conduite multi-vues dans des modèles multimodaux à grand langage

L'impact des défauts d'écriture des items sur la difficulté et la discrimination dans la théorie de la réponse aux items

À Travers la loupe : grossissement adaptatif de la perception pour un décodage VLM sans hallucinations

Recherche-R1 : Former les LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement

Planification des requêtes par extraction pour une communication sémantique orientée vers les objectifs

Accélération de la recherche focale dans la recherche de chemin multi-agent avec des limites inférieures plus strictes

RAILGUN : une politique convolutionnelle unifiée pour la recherche de chemin multi-agents dans différents environnements et tâches

UltraSTF : modèle ultra-compact pour la prévision spatio-temporelle à grande échelle

PTQ1.61 : Repousser les limites réelles des méthodes de quantification post-apprentissage à très faible débit binaire pour les grands modèles linguistiques

Modèle de base des dossiers médicaux électroniques pour l'estimation adaptative des risques

Désapprentissage des outils pour les LLM enrichis par les outils

Vision sans images : vision par ordinateur de bout en bout à partir de mesures compressives uniques

Comment les modèles génératifs attirent-ils un ingénieur logiciel ? Étude de cas sur le biais de diffusion stable

3DTTNet : Modélisation de terrains traversables 3D basée sur la fusion multimodale pour les environnements hors route

DOGR : Vers une ancrage et un référencement visuels polyvalents des documents

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Audits de la robustesse des modèles basés sur la causalité

AUTALIC : un ensemble de données pour le langage capacitiste anti-autiste en contexte

Au-delà de la récupération d'adaptateurs : composition préservant la géométrie latente via une projection de tâches clairsemées

Pyhgf : une bibliothèque de réseaux neuronaux pour le codage prédictif

Les préjugés humains face à l'IA : examen du jugement humain sur un texte étiqueté comme généré par l'IA

AVG-LLaVA : un modèle multimodal performant et de grande taille avec une granularité visuelle adaptative

Compression d'invite LLM guidée par arbres d'analyse

Un modèle, toute requête conjonctive : réseaux neuronaux graphiques pour répondre aux requêtes sur des graphes de connaissances incomplets

Une méthode MCTS de mise à jour parallèle basée sur la valeur pour la prise de décision coopérative multi-agents des véhicules connectés et automatisés

Définitions de l'équité dans les modèles linguistiques expliquées

CityLight : un modèle universel de contrôle coordonné des feux de circulation à l'échelle de la ville, incluant tous les quartiers

Réseau de fusion de données temporelles : vue multisources pour la prévision de séries chronologiques à long terme

Suivi d'objets visuels à long terme avec des caméras événementielles : un système de suivi à mémoire associative augmentée et un ensemble de données de référence

Hulk : un traducteur de connaissances universel pour les tâches centrées sur l'humain

De l'hypothèse de cluster à la convolution de graphes : l'apprentissage semi-supervisé basé sur les graphes revisité

Classification des bruits environnementaux sur une plate-forme matérielle embarquée

Inférence de dépendance des données pour la génération de code industriel basée sur des diagrammes de séquence UML

InqEduAgent : l'apprentissage adaptatif par IA s'associe à l'augmentation des processus gaussiens

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Modèles de débit à jauge supérieure

Réfléchir comment penser : atténuer la réflexion excessive grâce à la cognition autonome des difficultés dans les grands modèles de raisonnement

IS-Bench : Évaluation de la sécurité interactive des agents intégrés pilotés par VLM dans les tâches ménagères quotidiennes

SLR : Synthèse automatisée pour un raisonnement logique évolutif

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

APOLLO : LLM automatisé et collaboration Lean pour un raisonnement formel avancé

Rationalisation coopérative contradictoire : le risque de corrélations erronées, même dans des ensembles de données propres

Apprendre à inférer de manière adaptative pour les grands modèles linguistiques multimodaux

Induction efficace des règles en ignorant les règles inutiles

Pourquoi l'agent a pris cette décision : apprentissage explicatif contrastif pour l'apprentissage par renforcement

ÉValuation des seuils de détection : impact des faux positifs et négatifs sur la microscopie de localisation par ultrasons à super-résolution

Raisonnement abductif basé sur la cohérence sur les erreurs de perception de plusieurs modèles pré-entraînés dans de nouveaux environnements

작성자

Haebom

Auteur

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari

Contour

Cet article aborde le problème de la dégradation des performances due aux changements distributionnels qui surviennent lors de l'application de modèles de reconnaissance pré-entraînés à de nouveaux environnements. Les approches métacognitives existantes utilisent des règles logiques pour caractériser et filtrer les erreurs de modèle, mais l'amélioration de la précision se fait souvent au détriment d'une diminution du rappel. Cet article émet l'hypothèse que l'exploitation de plusieurs modèles pré-entraînés peut atténuer cette dégradation du rappel. Nous formulons le problème de l'identification et de la gestion des prédictions contradictoires issues de différents modèles comme un problème d'inférence inductive basé sur la cohérence, en nous appuyant sur les concepts de l'apprentissage adaptatif (ABL), mais en l'appliquant au moment du test plutôt qu'à celui de l'apprentissage. Les prédictions d'entrée et les règles de détection d'erreur apprises, dérivées de chaque modèle, sont codées dans un programme logique. Nous trouvons ensuite une explication inductive (un sous-ensemble de prédictions du modèle) qui maximise la couverture des prédictions tout en maintenant le taux de divergence logique (dérivé des contraintes du domaine) en dessous d'un seuil spécifié. Nous proposons deux algorithmes pour cette tâche de représentation des connaissances : une méthode exacte basée sur la programmation en nombres entiers (PI) et une recherche heuristique efficace (HS). Des expériences approfondies sur des jeux de données d'imagerie aérienne simulés présentant des variations distributionnelles complexes et contrôlées démontrent que notre cadre d'inférence inductive basé sur la cohérence surpasse à la fois les modèles individuels et les ensembles de référence standard, avec une amélioration d'environ 13,6 % du score F1 et de 16,6 % de la précision par rapport au meilleur modèle individuel sur 15 jeux de données tests différents. Ces résultats démontrent que l'inférence inductive basée sur la cohérence peut être utilisée comme un mécanisme efficace pour intégrer de manière robuste les connaissances issues de multiples modèles imparfaits dans de nouveaux scénarios complexes.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouveau cadre qui intègre les prédictions de plusieurs modèles pré-entraînés grâce à une inférence inductive basée sur la cohérence.

◦

Suggérant la possibilité de développer un modèle de reconnaissance robuste aux changements de distribution

◦

Preuve d'applicabilité à diverses situations à travers deux algorithmes : la programmation en nombres entiers (PI) et la recherche heuristique (HS).

◦

Amélioration des performances par rapport aux méthodes existantes sur les ensembles de données d'images aériennes simulées (amélioration de 13,6 % du score F1, amélioration de 16,6 % de la précision)

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité de cette méthode aux environnements réels à l’aide d’ensembles de données simulés.

◦

Dépendance à la définition et à la configuration des contraintes de domaine

◦

Des recherches supplémentaires sont nécessaires sur la complexité de calcul et l’évolutivité de l’algorithme.

◦

La vérification de la généralisabilité est nécessaire pour différents types de modèles de reconnaissance et d’ensembles de données.

Voir le PDF

Slashpage로 제작됨