[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

ÉValuation automatisée de la nouveauté des articles universitaires : une approche collaborative intégrant les connaissances humaines et les modèles de langage à grande échelle

« Est-il toujours à l'écoute ? » Exploration des préoccupations contextuelles en matière de confidentialité et de sécurité des robots sociaux domestiques

Une analyse théorique des groupes des symétries sous-jacentes à l'addition de base et de leur apprentissage par les réseaux neuronaux

GHPO : Guidage adaptatif pour un apprentissage par renforcement LLM stable et efficace

Extension OL-MDISF : Apprentissage en ligne à partir de fonctionnalités de streaming mixtes, dérivées et incomplètes

Quand et où les poisons de données attaquent-ils l’inversion textuelle ?

Détective de la vérité et briseur de tendances : des agents d'IA pour vérifier les faits des vidéos YouTube et influencer les opinions

Le traitement du langage naturel à la rencontre du monde : vers une amélioration des échanges avec le public sur la recherche en traitement du langage naturel

Génération précise des états de transition des réactions chimiques par correspondance de flux conditionnelle

Analyse comparative et évaluation des modèles d'IA en biologie : résultats et recommandations de l'atelier sur les cellules virtuelles du CZI

Un cadre PBN-RL-XAI pour la découverte d'une stratégie thérapeutique « hit-and-run » dans le mélanome

NeuTSFlow : Modélisation des fonctions continues derrière la prévision des séries chronologiques

THOR : Heuristiques de transformateur pour la récupération à la demande

Vers un RAG agentique avec raisonnement profond : un aperçu des systèmes de raisonnement RAG dans les LLM

Relier la littérature et l'univers grâce à un système multi-agents à grand modèle linguistique

Modélisation magnétoradiative et optimisation par réseau neuronal artificiel de l'écoulement de biofluides dans un domaine artériel sténosé

Symbiose : inférence multi-adaptateur et réglage fin

Repenser la protection des données à l'ère de l'intelligence artificielle (générative)

SoK : Confidentialité sémantique dans les grands modèles linguistiques

FedRef : Réglage fin bayésien efficace en communication avec un modèle de référence

ÉChelle prévisible : Partie II, Farseer : une loi d'échelle affinée dans les grands modèles de langage

Apprentissage auto-supervisé de prédiction de position pour la segmentation sémantique d'images satellites multimodales

ScaleRTL : mise à l'échelle des LLM avec des données de raisonnement et des calculs au moment des tests pour une génération précise de code RTL

HueManity : étude de la perception visuelle fine dans les MLLM

AKReF : Un cadre de représentation des connaissances argumentatives pour une argumentation structurée

Les grands modèles de langage savent souvent quand ils sont évalués

ÉValuations dynamiques des risques pour les agents de cybersécurité offensifs

Quelle est la consommation d'IA ? Analyse comparative de l'énergie, de l'eau et de l'empreinte carbone de l'inférence LLM

Responsabilité diffuse : analyse de la consommation énergétique des modèles de diffusion générative de texte en audio

Flow-GRPO : formation de modèles de correspondance de flux via RL en ligne

Sur la nécessité d'une base statistique pour les tests de véhicules autonomes basés sur des scénarios

Qu'est-ce qui tire les ficelles ? Évaluation de l'intégrité et de l'attribution dans l'entraînement et l'inférence de l'IA par changement de concept

TD-EVAL : Revisiter l'évaluation du dialogue orientée vers la tâche en combinant la précision au niveau du tour avec les comparaisons au niveau du dialogue

MobileCity : un cadre efficace pour la simulation du comportement urbain à grande échelle

Adaptateur sémantique pour l'intégration de texte universel : diagnostiquer et atténuer la cécité à la négation pour améliorer l'universalité

Exploiter les LLM pour les récits d'utilisateurs dans les systèmes d'IA : ensemble de données UStAI

Les grands modèles linguistiques ne sont pas fiables pour la cyber-renseignement sur les menaces

Ensemble de données AnnoPage : ensemble de données d'éléments non textuels dans des documents avec catégorisation fine

Une évaluation approfondie de l'impact des données non IID sur l'apprentissage fédéré

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

FADE : Pourquoi de mauvaises descriptions se produisent dans de bonnes fonctionnalités

FlipConcept : Personnalisation multi-concepts sans réglage pour la génération de texte en image

LUMINA-Net : Amélioration des conditions de faible luminosité grâce à un réseau d'éclairage et d'adaptation au bruit à plusieurs niveaux pour l'amélioration des images

Vers des générations de LLM ancrées dans la géoculture

Apprendre à raisonner à la frontière de l'apprenabilité

Décodage flexible et efficace avec contraintes grammaticales

PATCH : une méthode d'apprentissage profond pour évaluer l'hétérogénéité des pratiques artistiques dans les peintures historiques

L'impact de l'IA moderne sur la gestion des métadonnées

Apprentissage d'un modèle efficace de récupération de prémisses pour une formalisation mathématique efficace

ChipAlign : alignement des instructions dans les grands modèles de langage pour la conception de puces via l'interpolation géodésique

De nombreux problèmes objectifs où le croisement est manifestement essentiel

Patheria : détection et classification cellulaires pour les années 2020

ViTally Consistent : Adaptation de l'apprentissage des représentations biologiques à la microscopie cellulaire

TextDestroyer : une méthode de diffusion sans formation ni annotation pour détruire le texte anormal des images

Quantification de l'erreur d'étalonnage dans les réseaux neuronaux modernes grâce à une théorie fondée sur des preuves

Modèles de fondation biomédicale multi-vues pour la prédiction des molécules-cibles et des propriétés

Planification de trajectoire imitative renforcée pour la conduite automatisée urbaine

Distiller des représentations invariantes avec une double augmentation

Aborder le corpus d'abstraction et de raisonnement avec les transformateurs de vision : l'importance de la représentation 2D, des positions et des objets

Modèles d'intégration de concepts interprétables linéairement pour l'analyse de texte

Vers une compréhension de la généralisabilité des prédicteurs de liens sous les changements de distribution

StreakNet-Arch : une architecture réseau anti-diffusion pour l'imagerie radar LiDAR sous-marine

Renforcer la confiance dans les agents autonomes : une architecture pour la responsabilité et l'explicabilité grâce à la blockchain et aux grands modèles linguistiques

Sur les propriétés statistiques des modèles antagonistes génératifs pour les données à faible dimension intrinsèque

Programmation de processus collectifs distribués dans le calcul d'échange

Analyse holistique de la durabilité de l'apprentissage fédéré tout au long du cycle de vie des produits d'IA

Introduction mathématique à l'apprentissage profond : méthodes, implémentations et théorie

Epic-Sounds : un ensemble de données à grande échelle d'actions sonores

Du Web sémantique et MAS à l'IA agentique : un récit unifié du Web des agents

Sur la sémantique graduelle pour l'argumentation basée sur les hypothèses

Le défi d'enseigner le raisonnement aux étudiants en LLM sans apprentissage à distance ni distillation

Agrégation de classification continue

La difficulté rapide peut-elle être prédite en ligne pour accélérer le réglage fin des modèles de raisonnement par RL ?

MacOSWorld : une référence interactive multilingue pour les agents d'interface utilisateur graphique

GeoChain : Chaîne de pensées multimodale pour le raisonnement géographique

Perdu dans la transmission : quand et pourquoi les LLM échouent à raisonner à l'échelle mondiale

Un aperçu des frontières du raisonnement LLM : mise à l'échelle des inférences, apprentissage du raisonnement et systèmes agentiques

Système 0/1/2/3 : Théorie des processus quadruples pour les systèmes cognitifs collectifs incarnés à échelles de temps multiples

Principes pratiques pour la comptabilité analytique et informatique de l'IA

Communication émergente générative : le modèle de langage large est un modèle de monde collectif

Agents proactifs pour la génération multi-tours de texte en image en situation d'incertitude

Apprentissage des modèles STRIPS levés à partir des traces d'action seules : une solution simple, générale et évolutive

Désintoxication des hallucinations : perte de sensibilité (SenD) pour l'entraînement au modèle de langage à grande échelle

La vie trouve son chemin : l'hyperadaptabilité par la recherche comportementale

Gouvernance de l'intelligence artificielle générative pour les entreprises

RACER : Modèle de suivi de voiture à intelligence artificielle rationnelle amélioré par la réalité

Gouvernance de l'intelligence artificielle pour les entreprises

Interprétation de l'intention du radiologue à partir des mouvements oculaires dans le diagnostic radiographique thoracique X

S2WTM : Autoencodeur Wasserstein sphérique en tranches pour la modélisation de sujets

La synthèse de configuration basée sur LLM nécessite une désambiguïsation

Caractérisation des performances du modèle d'espace d'état (SSM) et du modèle de langage hybride SSM-Transformer avec une longueur de contexte longue

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Pouvons-nous prédire l'alignement avant que les modèles aient terminé leur réflexion ? Vers la surveillance des modèles de raisonnement désalignés

Segmentation tissulaire histopathologique basée sur l'unité via une représentation de caractéristiques à plusieurs niveaux

Amélioration de la génération augmentée de récupération pour les données d'entreprise structurées et internes

Mélange d'experts en Raytracing

QuRe : Récupération pertinente pour les requêtes grâce à l'échantillonnage négatif dur dans la récupération d'images composées

AutoVDC : nettoyage automatisé des données de vision à l'aide de modèles vision-langage

TD-EVAL : Revisiter l'évaluation du dialogue orientée vers la tâche en combinant la précision au niveau du tour avec les comparaisons au niveau du dialogue

Created by

Haebom

Auteur

Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani- Tur

Contour

Cet article aborde les limites de la méthodologie actuelle d'évaluation des systèmes de dialogue orienté tâches (TOD) basée sur un modèle de langage à grande échelle (LLM) et propose TD-EVAL, un nouveau cadre d'évaluation qui évalue à la fois les niveaux de tour et de conversation. TD-EVAL évalue trois dimensions au niveau du tour : la cohésion de la conversation, la cohérence des connaissances du backend et la conformité aux politiques. Il utilise TOD Agent Arena pour mesurer la qualité de la conversation par des comparaisons par paires au niveau de la conversation. Les résultats expérimentaux obtenus avec les jeux de données MultiWOZ 2.4 et τ-Bench montrent que TD-EVAL identifie efficacement les erreurs de conversation que les métriques existantes ne détectent pas et atteint une meilleure concordance avec le jugement humain. Par conséquent, TD-EVAL présente un nouveau paradigme pour l'évaluation future des systèmes TOD.

Takeaways, Limitations

•

Takeaways:

◦

Présentation d'un nouveau cadre d'évaluation du système TOD (TD-EVAL) qui surmonte les limites des indicateurs d'évaluation automatique existants

◦

Intègre l'analyse au niveau de la rotation et au niveau de la conversation pour permettre des évaluations plus sophistiquées

◦

Amélioration de la fiabilité de l'évaluation grâce à une forte concordance avec le jugement humain

◦

Conception plug-and-play pour une application facile dans les recherches futures

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires pour déterminer si les trois dimensions d’évaluation au niveau de la rotation de TD-EVAL (cohésion conversationnelle, cohérence des connaissances backend et conformité aux politiques) sont applicables à tous les systèmes TOD.

◦

Une validation supplémentaire de l'efficacité et de l'évolutivité de la méthode de comparaison par paires de TOD Agent Arena est nécessaire.

◦

ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, il est nécessaire de vérifier la généralisabilité à d’autres ensembles de données ou à divers systèmes TOD.

Voir le PDF

Made with Slashpage