Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SACL : Comprendre et combattre les biais textuels dans la recherche de code grâce au reclassement et à la localisation sémantiquement augmentés

Vers des schémas de libération de poids de modèles prouvables (non)sécurisés

Graphique de scène sémantique pour l'explication des images échographiques et le guidage de l'analyse

Ensemble de données IndieFake : un ensemble de données de référence pour la détection des deepfakes audio

Ce ne sont pas toutes les fonctionnalités que vous recherchez : un goulot d'étranglement fondamental dans la préformation supervisée

Les stratégies d'apprentissage contextuel émergent de manière rationnelle

Faites semblant jusqu'à y arriver : la modélisation des récompenses comme prédiction discriminante

Prétraitement sémantique pour l'analyse des logiciels malveillants basée sur LLM

PCDVQ : amélioration de la quantification vectorielle pour les grands modèles linguistiques via le découplage des coordonnées polaires

TracLLM : un cadre générique pour l'attribution de LLM à contexte long

TaxaDiffusion : modèle de diffusion progressivement formé pour la génération d'espèces à granularité fine

Correspondance de flux composite pour l'apprentissage par renforcement avec des données de dynamique décalée

Explicabilité des grands modèles linguistiques à l'aide de SMILE : interprétabilité statistique indépendante du modèle avec explications locales

Thinkless : LLM apprend quand réfléchir

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

Correspondance énergétique : unification de la correspondance des flux et des modèles énergétiques pour la modélisation générative

Analyse des sentiments basée sur l'IA : optimiser la valeur commerciale dans le secteur du commerce électronique

Vers une optimisation adaptative basée sur la mémoire pour une récupération améliorée et une génération augmentée

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Les LLM seront-ils des professionnels de l'investissement en fonds ? DeepFund : une perspective en direct

Révéler les représentations neuronales d'ordre supérieur de l'incertitude avec le modèle d'estimation du bruit par diffusion basée sur le renforcement (NERD)

Zero-TIG : amélioration vidéo en basse lumière guidée par l'éclairage Zero-Shot, tenant compte de la cohérence temporelle

PP-DocBee : Améliorer la compréhension des documents multimodaux grâce à un ensemble d'astuces

CREStE : Navigation évolutive sans mappage avec priori d'échelle Internet et guidage contrefactuel

Marchés avec agents hétérogènes : dynamique et survie des apprenants bayésiens et sans regret

Décodage spéculatif guidé par la récompense pour un raisonnement LLM efficace

UP-VLA : un modèle unifié de compréhension et de prédiction pour les agents incarnés

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Matérialiste : Édition basée sur la physique à l'aide du rendu inverse d'une seule image

Apprentissage de la représentation des valeurs de laboratoire via des auto-encodeurs masqués

Politique d'indice lagrangien pour les bandits agités avec récompense moyenne

SIDA : Détection, localisation et explication des deepfakes d'images sur les réseaux sociaux avec un grand modèle multimodal

InfiniCube : Génération de scènes de conduite 3D dynamiques, illimitées et contrôlables, avec des modèles vidéo guidés par le monde

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

MvKeTR : Génération de rapports de tomodensitométrie thoracique avec perception multi-vues et amélioration des connaissances

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

ToolScan : une référence pour caractériser les erreurs dans les LLM d'utilisation d'outils

Rappel et raffinement : un cadre d'adaptation de domaine ouvert, simple mais efficace et sans source

InterFormer : Apprentissage interactif hétérogène efficace pour la prédiction du taux de clics

Encourager les phonèmes : améliorer le multilinguisme des LLM pour les langues non latines

Vision par ordinateur avancée pour extraire des trajectoires de véhicules géoréférencées à partir d'images de drones

Calibrage rapide du gyroscope : une approche d'apprentissage profond

HERMES : compréhension temporelle-cohérente à long terme avec épisodes et sémantique

Une architecture EXCELLENTE pour les problèmes de graphes basés sur les bords comme TSP

ClimateIQA : un nouvel ensemble de données et une nouvelle référence pour faire progresser les modèles vision-langage dans l'analyse des anomalies météorologiques

MockLLM : un cadre de collaboration comportementale multi-agents pour la recherche d'emploi et le recrutement en ligne

Mes données sont-elles dans votre modèle d'IA ? Test d'inférence d'appartenance avec application aux images faciales

PuriDefense : purification antagoniste implicite locale aléatoire pour la défense contre les attaques basées sur des requêtes de type boîte noire

L'apprentissage continu comme apprentissage par renforcement contraint par le calcul

Génération d'images efficace avec des têtes d'attention variadique

Services de transport et de livraison intelligents avec véhicules électriques : tirer parti de la recharge bidirectionnelle pour optimiser les profits

Des souvenirs aux cartes : mécanismes d'apprentissage par renforcement contextuel chez Transformers

Les graphiques rencontrent les agents d'IA : taxonomie, progrès et opportunités futures

Apprivoiser l'indompté : récupération de connaissances et raisonnement basés sur des graphes pour les MLLM afin de conquérir l'inconnu

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

Méthode Doppelganger : rupture de la cohérence des rôles dans l'agent LLM via une attaque antagoniste transférable basée sur des invites

Metis-RISE : le RL incite et le SFT améliore l'apprentissage par modèle de raisonnement multimodal

Diffusion rapide d'arbres de Monte-Carlo : accélération 100 fois supérieure grâce à la planification parallèle clairsemée

NFISiS : Nouvelles perspectives sur les systèmes d'inférence floue pour la prévision des énergies renouvelables

L'état des grands modèles linguistiques pour les langues africaines : progrès et défis

Structurer le non structuré : un système multi-agents pour extraire et interroger les indicateurs clés de performance (KPI) et les orientations financières

Super co-alignement pour une société symbiotique durable

Améliorer la coordination homme-IA grâce à la formation contradictoire en ligne et aux modèles génératifs

Plateforme WiS : Améliorer l'évaluation des systèmes multi-agents basés sur LLM grâce à l'analyse basée sur les jeux

Révision de l'apprentissage : validation concrète de l'apprentissage continu préservant la confidentialité dans les établissements médicaux

Prédiction vidéo égocentrique conditionnée par le corps entier

MTSBench : analyse comparative de la détection d'anomalies de séries chronologiques multivariées et de la sélection de modèles à grande échelle

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

WorldVLA : Vers un modèle mondial d'action autorégressive

« Quoi de neuf, docteur ? » : Analyse de la façon dont les utilisateurs recherchent des informations de santé dans des ensembles de données d'IA conversationnelle à grande échelle

Compréhension de Potemkine dans les grands modèles linguistiques

SkLEP : un référentiel de compréhension générale de la langue slovaque

Modélisation et simulation basées sur l'exploration de processus pour améliorer le diagnostic des pannes dans les systèmes cyber-physiques

TITAN : Apprentissage adaptatif et contradictoire basé sur des jetons de requête

SmoothSinger : un modèle de diffusion conditionnelle pour la synthèse vocale avec une architecture multi-résolution

Optimisation des méthodes Runge-Kutta d'ordre 4 : une approche heuristique dynamique pour l'efficacité et un faible stockage

Masters de compétences en leadership (LML) basés sur la connaissance du domaine pour la détection des fraudes et des dérives conceptuelles

Adaptation bayésienne évolutive de bas rang de grands modèles de langage via l'inférence de sous-espace variationnel stochastique

Exploiter LLM - Compréhension assistée des requêtes pour une récupération en direct - Génération augmentée

Réseau d'attention graphique sensible au temps pour la détection des fraudes aux transactions de cryptomonnaie

Faites attention aux petits poids

Recommandations de produits personnalisées et en temps réel pour les grandes plateformes de commerce électronique

RQdia : régularisation des distributions de valeurs Q par augmentation d'image

CA-I2P : réseau d'enregistrement adaptatif aux canaux avec sélection optimale globale

Une revue systématique de la co-créativité homme-IA

Reconnaissance holistique des phases chirurgicales avec modèles d'espace d'état dépendant des entrées hiérarchiques

Sur l'approximation polynomiale profonde pondérée uniforme

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Détection d'expressions référentes dans un dialogue visuellement fondé avec des modèles de langage autorégressifs

Les petits encodeurs peuvent rivaliser avec les grands décodeurs pour détecter la mise à la terre

Autoencodeurs variationnels hypersphériques utilisant une distribution de Cauchy sphérique efficace

Intégration des données acoustiques des véhicules pour une meilleure gestion du trafic urbain : une étude sur la classification de la vitesse à Suzhou

DiLoCoX : un cadre de formation à grande échelle et à faible communication pour les clusters décentralisés

Agent-RewardBench : Vers une référence unifiée pour la modélisation des récompenses en termes de perception, de planification et de sécurité chez les agents multimodaux du monde réel

De la blockchain à la macroéconomie : évaluer l'importance de la diversité des sources de données dans les prévisions du marché des cryptomonnaies

$T^3$ : Réparation automatique de programmes basée sur des arbres multi-niveaux avec de grands modèles de langage

BitMark pour Infinity : Filigranage de modèles génératifs d'images autorégressives au niveau du bit

Compression KV sensible aux tâches pour une compréhension rentable des vidéos longues

TITAN : Apprentissage adaptatif et contradictoire basé sur des jetons de requête

Created by

Haebom

Auteur

Tajamul Ashraf, Janibul Bashir

Contour

Cet article se concentre sur le problème de la détection d'objets adaptative au domaine sans source (SF-DAOD), qui doit s'adapter au domaine cible sans données source. La plupart des approches existantes utilisent une approche auto-supervisée utilisant le cadre élève-enseignant (ST) qui affine les pseudo-étiquettes générées par le modèle source pré-entraîné. Cependant, le modèle enseignant s'effondre en raison du bruit important des pseudo-étiquettes causé par le biais de domaine, l'inadéquation et le décalage de domaine significatif, ce qui dégrade considérablement les performances du modèle élève. Pour résoudre ce problème, nous proposons dans cet article un réseau antagoniste itératif de jetons de requête basé sur la cible (TITAN). TITAN segmente l'image cible en échantillons similaires à la source (faciles) et en échantillons différents à la source (difficiles), et utilise une stratégie pour estimer la variance en exploitant l'idée qu'une variance de détection plus élevée conduit à un meilleur rappel et à une plus grande similarité avec le domaine source. De plus, nous intégrons un module antagoniste basé sur des jetons de requête au cadre élève-enseignant afin de réduire l'écart de domaine entre les deux représentations de caractéristiques. Des expériences sur quatre jeux de données d'images naturelles et deux jeux de données médicales montrent que TITAN surpasse les méthodes de pointe existantes (SOTA). Nous rapportons des améliorations de mAP de +22,7 %, +22,2 %, +21,1 % et +3,7 % respectivement sur les benchmarks C2F, C2B, S2C et K2C.

Takeaways, Limitations_

•

Takeaways:

◦

Nous présentons TITAN, une nouvelle approche du problème de détection d'objets adaptatifs au domaine sans source.

◦

Nous proposons une stratégie pour atténuer efficacement le problème du bruit des étiquettes des médecins.

◦

Amélioration des performances grâce à la segmentation des images du domaine cible et à l'estimation de la variance.

◦

Atteindre les performances SOTA sur divers ensembles de données.

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la stratégie d’estimation de la variance de TITAN.

◦

Les améliorations de performances pour un ensemble de données particulier peuvent ne pas être généralisées à d’autres ensembles de données.

◦

Une vérification de l’applicabilité pour des domaines plus divers et plus complexes est nécessaire.

Voir le PDF

Made with Slashpage