Cet article met en évidence les faiblesses du modèle de récompense (RM), essentielles à l'optimisation des modèles de langage à grande échelle (MLH), et présente une nouvelle approche pour y remédier. Les MLH existants présentent le problème de leur apprentissage avec des ensembles de données de préférences fixes et ne peuvent donc pas s'adapter aux différents besoins du monde réel. Dans cet article, nous proposons un MLH généralisable qui comprend et suit dynamiquement les principes de récompense exprimés en langage naturel. À cette fin, nous développons un nouveau benchmark, RABench, pour évaluer la capacité de généralisation de différents principes, et présentons RewardAnything, un nouveau MLH conçu et entraîné pour suivre explicitement les principes du langage naturel. RewardAnything atteint des performances de pointe sur les benchmarks RM existants et affiche également d'excellentes performances d'adaptation aux nouveaux principes sur RABench. De plus, RewardAnything s'intègre parfaitement aux méthodes RLHF existantes, et nous démontrons, à travers une étude de cas, comment aligner automatiquement et efficacement les MLH en utilisant uniquement les principes du langage naturel.