Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Au-delà du risque : un prototype de cadre pour évaluer l'impact sociétal des systèmes d'IA

Réduction dimensionnelle dynamique supervisée avec réseau neuronal profond

EmoSteer-TTS : synthèse vocale fine et sans formation, contrôlable par les émotions via le pilotage par activation

Les LLM ont un cœur de pierre : démystifier la capacité de réflexion douce des grands modèles de raisonnement

Optimisation de code industrielle basée sur LLM sous réglementation : une approche par mélange d'agents

Protocole d'évaluation fiable pour la récupération de faible précision

Landsat30-AU : un ensemble de données vision-langage pour l'imagerie Landsat australienne

Apprentissage par renforcement intégré aux outils pour la recherche approfondie dans les référentiels

CauKer : les modèles de base de séries chronologiques de classification peuvent être pré-entraînés uniquement sur des données synthétiques

Intégration multi-invites adaptative au contexte avec de grands modèles de langage pour l'alignement vision-langage

DMSC : Cadre de coordination multi-échelle dynamique pour la prévision des séries chronologiques

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Apprentissage de la représentation des entités via un graphique sur site/hors site pour les publicités Pinterest

ÉValuation de l'expérience utilisateur dans les systèmes de recommandation conversationnelle : une revue systématique des approches classiques et basées sur le LLM

Connaissance des fréquences spatiales pour la détection d'objets dans les images RAW

Apprentissage de la manipulation pivotante avec retour de force et de vision à l'aide de démonstrations basées sur l'optimisation

NCCR : évaluer la robustesse des réseaux neuronaux et des exemples contradictoires

ChartM$^3$ : Analyse comparative de l'édition de graphiques avec des instructions multimodales

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

EcoTransformer : Attention sans multiplication

Les confettis de Bob : attaques de mémorisation phonétique dans la création musicale et vidéo

SDBench : une suite complète de benchmarks pour la diarisation des locuteurs

Un véritable apprentissage multimodal en contexte nécessite une attention au contexte visuel

Modèles de débit de jauge

Recherche d'architecture neuronale à zéro coup avec corrélation de réponse pondérée

Le côté obscur des LLM : attaques basées sur des agents pour une prise de contrôle complète des ordinateurs

CAVGAN : Unifier le jailbreak et la défense des LLM via des attaques antagonistes génératives sur leurs représentations internes

VOTE : Optimisation vision-langage-action avec le vote d'ensemble de trajectoires

ÉTude comparative des LLM spécialisés en tant que récupérateurs denses

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

UnMix-NeRF : le démixage spectral rencontre les champs de rayonnement neuronal

Ancrages de pensée : quelles étapes du raisonnement LLM sont importantes ?

UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Modèles de fondation fédérés multimodaux et multitâches pour les systèmes de réalité étendue de nouvelle génération : vers une intelligence distribuée préservant la confidentialité en RA/RV/RM

Le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

CAIN : Détournement de LLM – Conversations humaines via des invites système malveillantes

Expliquez moins, comprenez plus : détection du jargon grâce à un réglage fin personnalisé et efficace des paramètres

Qu'est-ce qui vit ? Une méta-analyse de diverses opinions sur la définition de la vie.

Un recuit neuronal génératif pour l'optimisation combinatoire en boîte noire

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

CostFilter-AD : Amélioration de la détection des anomalies grâce au filtrage des coûts correspondants

Mj\"olnir : un cadre de paramétrisation d'apprentissage profond pour la densité globale des éclairs

Reconnaissance des attributs piétons basée sur les événements RVB : un ensemble de données de référence et un cadre de fusion RWKV asymétrique

ProtoECGNet : Apprentissage profond interprétable basé sur des cas pour la classification d'ECG multi-étiquettes avec apprentissage contrastif

Au-delà des images grand angle : correction de la structure des portraits vidéo en détail via une adaptation spatio-temporelle non supervisée

CITRAS : Transformateur informé par covariable pour la prévision des séries chronologiques

Une rubrique suffit : Améliorer l'évaluation du code basée sur la LLM grâce à des rubriques spécifiques aux questions

Analyse empirique de la co-formation en simulation et en réel des politiques de diffusion pour la poussée planaire à partir de pixels

SimpleRL-Zoo : Enquête et maîtrise de l'apprentissage par renforcement zéro pour les modèles à base ouverte dans la nature

NuPlanQA : un ensemble de données à grande échelle et une référence pour la compréhension de scènes de conduite multi-vues dans des modèles multimodaux à grand langage

L'impact des défauts d'écriture des items sur la difficulté et la discrimination dans la théorie de la réponse aux items

À Travers la loupe : grossissement adaptatif de la perception pour un décodage VLM sans hallucinations

Recherche-R1 : Former les LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement

Planification des requêtes par extraction pour une communication sémantique orientée vers les objectifs

Accélération de la recherche focale dans la recherche de chemin multi-agent avec des limites inférieures plus strictes

RAILGUN : une politique convolutionnelle unifiée pour la recherche de chemin multi-agents dans différents environnements et tâches

UltraSTF : modèle ultra-compact pour la prévision spatio-temporelle à grande échelle

PTQ1.61 : Repousser les limites réelles des méthodes de quantification post-apprentissage à très faible débit binaire pour les grands modèles linguistiques

Modèle de base des dossiers médicaux électroniques pour l'estimation adaptative des risques

Désapprentissage des outils pour les LLM enrichis par les outils

Vision sans images : vision par ordinateur de bout en bout à partir de mesures compressives uniques

Comment les modèles génératifs attirent-ils un ingénieur logiciel ? Étude de cas sur le biais de diffusion stable

3DTTNet : Modélisation de terrains traversables 3D basée sur la fusion multimodale pour les environnements hors route

DOGR : Vers une ancrage et un référencement visuels polyvalents des documents

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Audits de la robustesse des modèles basés sur la causalité

AUTALIC : un ensemble de données pour le langage capacitiste anti-autiste en contexte

Au-delà de la récupération d'adaptateurs : composition préservant la géométrie latente via une projection de tâches clairsemées

Pyhgf : une bibliothèque de réseaux neuronaux pour le codage prédictif

Les préjugés humains face à l'IA : examen du jugement humain sur un texte étiqueté comme généré par l'IA

AVG-LLaVA : un modèle multimodal performant et de grande taille avec une granularité visuelle adaptative

Compression d'invite LLM guidée par arbres d'analyse

Un modèle, toute requête conjonctive : réseaux neuronaux graphiques pour répondre aux requêtes sur des graphes de connaissances incomplets

Une méthode MCTS de mise à jour parallèle basée sur la valeur pour la prise de décision coopérative multi-agents des véhicules connectés et automatisés

Définitions de l'équité dans les modèles linguistiques expliquées

CityLight : un modèle universel de contrôle coordonné des feux de circulation à l'échelle de la ville, incluant tous les quartiers

Réseau de fusion de données temporelles : vue multisources pour la prévision de séries chronologiques à long terme

Suivi d'objets visuels à long terme avec des caméras événementielles : un système de suivi à mémoire associative augmentée et un ensemble de données de référence

Hulk : un traducteur de connaissances universel pour les tâches centrées sur l'humain

De l'hypothèse de cluster à la convolution de graphes : l'apprentissage semi-supervisé basé sur les graphes revisité

Classification des bruits environnementaux sur une plate-forme matérielle embarquée

Inférence de dépendance des données pour la génération de code industriel basée sur des diagrammes de séquence UML

InqEduAgent : l'apprentissage adaptatif par IA s'associe à l'augmentation des processus gaussiens

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Modèles de débit à jauge supérieure

Réfléchir comment penser : atténuer la réflexion excessive grâce à la cognition autonome des difficultés dans les grands modèles de raisonnement

IS-Bench : Évaluation de la sécurité interactive des agents intégrés pilotés par VLM dans les tâches ménagères quotidiennes

SLR : Synthèse automatisée pour un raisonnement logique évolutif

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

APOLLO : LLM automatisé et collaboration Lean pour un raisonnement formel avancé

Rationalisation coopérative contradictoire : le risque de corrélations erronées, même dans des ensembles de données propres

Apprendre à inférer de manière adaptative pour les grands modèles linguistiques multimodaux

Induction efficace des règles en ignorant les règles inutiles

Pourquoi l'agent a pris cette décision : apprentissage explicatif contrastif pour l'apprentissage par renforcement

ÉValuation des seuils de détection : impact des faux positifs et négatifs sur la microscopie de localisation par ultrasons à super-résolution

Au-delà de la récupération d'adaptateurs : composition préservant la géométrie latente via une projection de tâches clairsemées

Created by

Haebom

Auteur

Pengfei Jin, Peng Shu, Sifan Song, Sekeun Kim, Qing Xiao, Cheng Chen, Tianming Liu, Xiang Li, Quanzheng Li

Contour

Cet article présente une méthode de construction d'adaptateurs LoRA à partir d'une bibliothèque de modules pré-entraînés, utilisant un apprentissage par transfert efficace en termes de paramètres. Les approches existantes reposent sur des heuristiques de recherche simples ou un moyennage uniforme, qui négligent la structure latente des relations entre les tâches dans l'espace de représentation. Cet article propose un nouveau cadre pour la réutilisation des adaptateurs, formulant la construction d'adaptateurs comme un problème de reconstruction parcimonieuse tenant compte de la géométrie. Plus précisément, nous représentons chaque tâche comme un vecteur prototype latent dérivé de l'encodeur d'un modèle de base, et approximons le prototype de la tâche cible comme une combinaison linéaire parcimonieuse des prototypes de référence récupérés, sous un objectif d'optimisation régularisé en ℓ1. Les pondérations combinées résultantes sont utilisées pour fusionner les adaptateurs LoRA correspondants afin de générer un adaptateur composite adapté à la tâche cible. Cette formulation préserve non seulement la structure géométrique locale de la variété de représentation des tâches, mais sélectionne également un ensemble minimal d'adaptateurs pertinents, favorisant ainsi l'interprétabilité et une réutilisation efficace. Nous démontrons l'efficacité de cette approche dans plusieurs domaines, notamment la segmentation d'images médicales, la génération de rapports médicaux et la synthèse d'images. Les résultats expérimentaux mettent en évidence les avantages de la combinaison de la recherche et de l'optimisation prenant en compte la géométrie latente pour une généralisation à zéro coup améliorée.

Takeaways, Limitations

•

Takeaways:

◦

Surmonter les limites des méthodes existantes de recherche simple et de réutilisation des adaptateurs LoRA basées sur la moyenne

◦

Exploitez les informations géométriques latentes pour permettre des configurations d'adaptateur plus précises et plus efficaces.

◦

Interprétabilité et efficacité améliorées en sélectionnant uniquement le nombre minimum d'adaptateurs pertinents grâce à des combinaisons linéaires clairsemées.

◦

Démontrer des performances améliorées de généralisation à zéro coup dans divers domaines.

•

Limitations:

◦

L’efficacité de la méthode proposée peut dépendre d’ensembles de données et de tâches spécifiques.

◦

Le coût de calcul de l’optimisation de la régularisation ℓ1 peut être relativement élevé.

◦

D’autres expériences sont nécessaires sur un plus large éventail de tâches et de domaines.

Voir le PDF

Made with Slashpage