Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fondements de principe pour l'optimisation des préférences

작성자
  • Haebom

Auteur

Wenxuan Zhou, Shujian Zhang, Brice Magdalou, John Lambert, Ehsan Amid, Richard Nock, Andrew Hard

Contour

Cet article présente l'optimisation directe des préférences (ODP) comme un pont entre deux théories majeures de l'apprentissage des préférences en apprentissage automatique (AM) : la fonction de perte (Savage) et la sélection probabiliste (Doignon-Falmagne et Machina). Ce pont est établi pour toutes les fonctions de perte de Savage et, à ce niveau général, il fournit (i) un support pour l'abstention dans la théorie du choix, (ii) un support pour les objectifs non convexes dans le contexte de l'AM, et (iii) la possibilité d'élaborer gratuitement des extensions notables du paramètre ODP, notamment des modifications de marge et de longueur. Compte tenu de la diversité des domaines d'application et de l'intérêt actuel pour l'ODP, et du fait que de nombreuses variantes de l'ODP de pointe n'occupent qu'une petite partie du champ d'application de cet article, il est important de comprendre le fonctionnement de l'ODP d'un point de vue des principes généraux. De plus, cela permet de comprendre les pièges et d'identifier les solutions qui sortent du cadre de cet article.

Takeaways, Limitations

Takeaways : Comprendre les principes généraux de l'OPD, expliquer en détail ses diverses applications et ses variantes innovantes, identifier Limitations de l'OPD et suggérer des pistes d'amélioration. Renforcer les fondements théoriques de l'OPD en clarifiant le lien entre les fonctions de perte et la théorie de la sélection probabiliste. Des fonctionnalités étendues telles que les objectifs non convexes et le support de l'abstention peuvent être intégrées naturellement.
Limitations: Bien que cet article fournisse une base théorique pour le DPO, il offre peu de conseils pour ses applications pratiques. L'évaluation expérimentale des performances et de l'efficacité du DPO pour des applications spécifiques fait défaut.
👍