Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les émotions comme représentations ordinales conscientes de l'ambiguïté

De la Tabula Rasa aux capacités émergentes : découvrir les compétences des robots grâce à la diversité de qualité non supervisée du monde réel

Amélioration de la confidentialité des modèles dans l'apprentissage fédéré grâce au masquage aléatoire et à la quantification

Lois d'échelle pour les connaissances stratifiées par tâches dans les modèles de langage quantifiés post-formation

Détection raisonnée des hallucinations dans les grands modèles linguistiques via des tests multiples

Discriminateur de caractéristiques projetées par vocodeur

ControlEchoSynth : optimisation des modèles d'estimation de la fraction d'éjection via la diffusion vidéo contrôlée

Expliquez avant de répondre : une enquête sur le raisonnement visuel compositionnel

Réseau de diffusion en une étape sensible au temps pour une super-résolution d'images réelles

PediatricsMQA : une référence multimodale de questions-réponses en pédiatrie

VideoEraser : effacement de concepts dans les modèles de diffusion texte-vidéo

ÉTude systématique des attaques et des défenses par extraction de modèles : état de l'art et perspectives

GeoSAM2 : exploiter la puissance de SAM2 pour la segmentation de pièces 3D

Mise à l'échelle du temps d'entrée

LinguaSafe : une référence complète en matière de sécurité multilingue pour les grands modèles linguistiques

Une étude sur la génération de texte parallèle : du décodage parallèle aux modèles de langage de diffusion

StreetViewAI : rendre Street View accessible grâce à l'IA multimodale sensible au contexte

Putnam-AXIOM : une référence fonctionnelle et statique pour mesurer le raisonnement mathématique de niveau supérieur dans les LLM

De l'imitation à l'optimisation : une étude comparative de l'apprentissage hors ligne pour la conduite autonome

R-Zero : Raisonnement auto-évolutif LLM à partir de données zéro

Interaction homme-IA centrée sur l'humain (HC-HAII) : une perspective d'IA centrée sur l'humain

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Apprentissage multitâche contrastif avec augmentation sensible aux solvants pour la découverte de médicaments

Une référence à grande échelle de l'apprentissage intermodal pour l'histologie et l'expression génétique en transcriptomique spatiale

Architectures invisibles de la pensée : vers une nouvelle science de l'IA comme infrastructure cognitive

Réexamen des modèles de langage pré-entraînés pour la détection des vulnérabilités

MegaScience : Repousser les limites des ensembles de données post-formation pour le raisonnement scientifique

Mise à l'échelle de l'apprentissage décentralisé avec FLock

SegQuant : un cadre de quantification généralisable et sensible à la sémantique pour les modèles de diffusion

Modèles linguistiques de l'Apple Intelligence Foundation : rapport technique 2025

Exploration optimiste pour l'apprentissage par renforcement contraint et averse au risque

PyVision : vision agentique avec outils dynamiques

DATABench : Évaluation de l'audit des ensembles de données dans l'apprentissage profond d'un point de vue contradictoire

RoboTwin 2.0 : un générateur de données évolutif et une référence avec une forte randomisation de domaine pour une manipulation robotique bimanuelle robuste

Analyse de la représentation des personnages dans le contenu médiatique à l'aide du modèle de fondation multimodale : efficacité et confiance

MEraser : une approche efficace d'effacement des empreintes digitales pour les grands modèles linguistiques

CoQuIR : une référence complète pour la recherche d'informations tenant compte de la qualité du code

DreamActor-H1 : Génération de vidéos de démonstration de produits humains haute fidélité via des transformateurs de diffusion conçus par le mouvement

Pseudo-simulation pour la conduite autonome

BinConv : une architecture neuronale pour le codage ordinal dans la prévision des séries chronologiques

FaceEditTalker : génération de têtes parlantes contrôlables avec édition des attributs faciaux

EnvInjection : attaque par injection d'invite environnementale sur des agents Web multimodaux

X-Sim : Apprentissage inter-incarnations via la conversion du réel au réel

Modèles de diffusion de chaleur – Mécanisme d'attention interpixel

Planification bidirectionnelle des tâches et des mouvements basée sur l'apprentissage par renforcement hiérarchique pour la confrontation stratégique

Systèmes de recommandation conversationnelle multi-types sensibles au contexte via un mélange d'experts

Précision du modèle d'IA de tarification

ÉValuation de l'adéquation des ontologies à la tâche de génération de questions

Annotation LLM axée sur l'utilité pour la récupération et la génération augmentée par la récupération

PGAD : distillation adaptative guidée par prototype pour l'apprentissage multimodal dans le diagnostic de la maladie d'Alzheimer

Construction d'une norme pour le dessin scientifique des enfants : caractéristiques de distribution basées sur la similarité sémantique des grands modèles linguistiques

Une approche empirique de minimisation des risques pour le RL inverse hors ligne et le modèle de choix discret dynamique

PINN efficaces via la régularisation unimodulaire multi-têtes de l'espace des solutions

L’apprentissage statistique n’implique pas toujours des connaissances

Modèles de diffusion générative basés sur les scores pour les recommandations sociales

PromptKeeper : invites du système de sauvegarde pour les LLM

X-Invite : Vers une génération universelle d'images contextuelles dans les modèles de fondation du langage de vision autorégressif

Comprendre les compromis entre équité et précision dans les modèles d’apprentissage automatique : la promotion de l’équité nuit-elle aux performances ?

GSM-Symbolic : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage

Exploiter les chemins multifacettes pour l'apprentissage de la représentation de graphes hétérogènes

Formation avec explications seules : un nouveau paradigme pour éviter l'apprentissage par raccourcis

Génération de géodésiques avec apprentissage par renforcement acteur-critique pour prédire les points médians

TabSketchFM : Apprentissage de représentations tabulaires basées sur des croquis pour la découverte de données sur des lacs de données

HoneyBee : un cadre modulaire évolutif pour la création d'ensembles de données oncologiques multimodaux avec des modèles d'intégration fondamentaux

StepWiser : Juges génératifs pas à pas pour un raisonnement plus judicieux

AniME : planification multi-agents adaptative pour la génération d'animations longues

AppAgent-Pro : un système d'agent d'interface utilisateur graphique proactif pour l'intégration d'informations multidomaines et l'assistance aux utilisateurs

Les chaperons IA sont (vraiment) tout ce dont vous avez besoin pour prévenir les relations parasociales avec les chatbots

Nemori : Mémoire d'agent auto-organisée inspirée des sciences cognitives

Les agents généraux contiennent des modèles mondiaux

Construction approximative du modèle soulevé

Paysage de fitness de la recherche automatisée assistée par un modèle de langage volumineux

Synthétiser des tâches de programmation de haute qualité avec des agents experts et étudiants basés sur le LLM

ÉLicitation des préférences pour l'optimisation combinatoire multi-objectif avec apprentissage actif et estimation du maximum de vraisemblance

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Démonstration des spécifications dans les modèles de raisonnement de jeu

AirRAG : Planification et raisonnement stratégiques autonomes Pilotage de la récupération Génération augmentée

Pensez intelligemment, agissez intelligemment ! Analyse des boucliers logiques probabilistes pour l'apprentissage par renforcement multi-agents

De la preuve à la décision : explorer l'IA évaluative

CODA : Coordination du cerveau et du cervelet pour un agent d'utilisation d'ordinateur à double cerveau avec apprentissage par renforcement découplé

Diffusion guidée discrète pour une planification de mouvement multi-robots évolutive et sûre

Autoencodeur masqué de progression de patch avec réseau CNN Fusion pour la classification de l'évolution entre deux paires de tranches OCT 2D

DeepScholar-Bench : un benchmark en direct et une évaluation automatisée pour la synthèse de recherche générative

Grands modèles de langage (LLM) pour l'automatisation de la conception électronique (EDA)

Symphony : un framework multi-agents décentralisé pour une intelligence collective évolutive

Jumeaux numériques HPC pour l'évaluation des politiques de planification, des structures d'incitation et de leur impact sur l'alimentation et le refroidissement

Décomposition des transitions de phase comportementales dans les LLM : paramètres d'ordre pour le désalignement émergent

Catégorisation et recatégorisation des produits de commerce électronique multiplateformes : une approche de classification hiérarchique multimodale

Sélection de démonstration en temps linéaire pour l'apprentissage en contexte via l'estimation du gradient

MathBuddy : un système multimodal pour un tutorat affectif en mathématiques

Les modèles de langage de diffusion connaissent la réponse avant de décoder

GLSim : Détection d'hallucinations d'objets dans les LVLM via la similarité globale-locale

Dhati+ : Modèles linguistiques affinés pour l'évaluation de la subjectivité arabe

WaveHiT-SR : réseau d'ondelettes hiérarchique pour une super-résolution d'image efficace

La couche suivante : Augmentation des modèles de base avec un apprentissage préservant la structure et guidé par l'attention pour les correctifs locaux à la connaissance du contexte global en pathologie computationnelle

Raisonnement logique avec modèles de récompense des résultats pour la mise à l'échelle du temps de test

La dynamique de l'information de la diffusion générative

Détection par l'IA du langage inapproprié dans les programmes des facultés de médecine

IA générative pour tester les systèmes de conduite autonome : une enquête

Données LiDAR multispectrales pour l'extraction de points d'arbres dans les zones urbaines et suburbaines

CoQuIR : une référence complète pour la recherche d'informations tenant compte de la qualité du code

Created by

Haebom

Auteur

Jiahui Geng, Fengyu Cai, Shaobo Cui, Qing Li, Liangwei Chen, Chenyang Lyu, Haonan Li, Derui Zhu, Walter Pretschner, Heinz Koeppl, Fakhri Karray

Contour

Cet article propose CoQuIR, un benchmark multilingue à grande échelle pour évaluer la qualité de la récupération de code, essentielle pour améliorer la réutilisation du code et la vitesse de débogage dans le développement logiciel. Contrairement aux benchmarks existants qui se concentrent uniquement sur la pertinence fonctionnelle, CoQuIR fournit des annotations de qualité précises pour 42 725 requêtes et 134 907 extraits de code dans 11 langages de programmation, en prenant en compte quatre dimensions clés : précision, efficacité, sécurité et maintenabilité. À l'aide de deux indicateurs d'évaluation axés sur la qualité – la précision des préférences par paires et le score de classement basé sur la marge – nous avons comparé 23 modèles de récupération et constaté que même les modèles les plus performants peinent à distinguer le code bogué ou dangereux du code plus robuste. De plus, nous menons une étude préliminaire sur les méthodes d'apprentissage qui encouragent explicitement la qualité du code, démontrant des améliorations des indicateurs de qualité sur différents modèles à l'aide d'ensembles de données synthétiques. Nous validons ensuite l'efficacité de notre approche par des expériences ultérieures de génération de code. En conclusion, cette étude souligne l’importance d’intégrer des signaux de qualité dans les systèmes de recherche de code, jetant ainsi les bases d’outils de développement logiciel plus fiables et plus robustes.

Takeaways, Limitations

•

Takeaways:

◦

Il souligne l’importance de prendre en compte la qualité du code (exactitude, efficacité, sécurité, maintenabilité) dans les systèmes de recherche de code.

◦

Nous fournissons un benchmark multilingue à grande échelle, CoQuIR, pour évaluer avec précision les capacités de reconnaissance de qualité des modèles de recherche de code.

◦

Nous démontrons que les méthodes de formation axées sur la qualité peuvent améliorer les performances de perception de la qualité.

◦

Jeter les bases du développement d’outils de développement logiciel plus fiables et plus robustes.

•

Limitations:

◦

ÉTant donné que le benchmark CoQuIR est basé sur des résultats expérimentaux préliminaires utilisant des ensembles de données synthétiques, une validation supplémentaire de ses performances sur des ensembles de données du monde réel est nécessaire.

◦

Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode de formation axée sur la qualité proposée.

◦

Il se peut qu’il y ait un manque de discussion sur les limites et le potentiel d’amélioration des mesures d’évaluation.

Voir le PDF

Made with Slashpage