Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les lois de Murphy sur l'alignement de l'IA : pourquoi l'écart est toujours gagnant

Created by
  • Haebom

Auteur

Madhava Gaikwad

Contour

Cet article démontre un résultat d'impossibilité formelle pour l'apprentissage par renforcement à partir du feedback humain (RLHF). Dans un environnement mal spécifié avec un budget de requêtes limité, les apprenants de type RLHF souffrent d'un écart de performance γ infranchissable sans accès à un oracle de correction. Les preuves théoriques de l'information fournissent des bornes inférieures strictes et démontrent qu'un nombre minimal d'oracles de correction suffit à combler cet écart. Un petit exemple empirique et une liste de règles d'alignement (loi de Murphy) démontrent que de nombreux échecs d'alignement observés sont cohérents avec ce mécanisme structurel. Ces résultats établissent l'écart de Murphy comme une limitation diagnostique de l'apprentissage par renforcement à partir du feedback humain et servent de guide pour les recherches futures sur la correction et l'identification des préférences causales.

Takeaways, Limitations

Takeaways: Nous identifions le « trou de Murphy », une limitation structurelle du RLHF, et suggérons l'importance d'un oracle de correction pour y remédier. Nous fournissons des preuves théoriques de l'information concernant les limitations de performance du RLHF dans des environnements mal spécifiés, suggérant des orientations futures pour la recherche sur le RLHF. Nous proposons également une nouvelle explication des défaillances d'alignement observées.
Limitations: Seuls des exemples empiriques à petite échelle sont présentés, et des recherches supplémentaires sont nécessaires pour déterminer leur applicabilité et leur généralisabilité aux systèmes à grande échelle. Il manque une discussion spécifique sur la mise en œuvre et l'application pratique des oracles de correction. La définition et la portée de la « loi de Murphy » manquent de clarté et nécessitent des explications complémentaires.
👍