Takeaways: Nous identifions le « trou de Murphy », une limitation structurelle du RLHF, et suggérons l'importance d'un oracle de correction pour y remédier. Nous fournissons des preuves théoriques de l'information concernant les limitations de performance du RLHF dans des environnements mal spécifiés, suggérant des orientations futures pour la recherche sur le RLHF. Nous proposons également une nouvelle explication des défaillances d'alignement observées.