Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Maximisation douce basée sur un modèle de mesures appropriées de la puissance humaine à long terme

Created by
  • Haebom

Auteur

Jobst Heitzig, Ram Potham

Contour

Cet article explore le concept de « pouvoir », un concept clé de la sécurité de l'IA. Il aborde la quête de pouvoir comme objectif en IA, la perte soudaine ou progressive du pouvoir humain, ainsi que l'équilibre des pouvoirs dans les interactions homme-IA et la gouvernance internationale de l'IA. Simultanément, le pouvoir, en tant que capacité à poursuivre des objectifs multiples, est essentiel au bien-être humain. Cet article explore l'idée de promouvoir à la fois la sécurité et le bien-être en permettant aux agents d'IA d'améliorer explicitement le pouvoir humain et de gérer l'équilibre des pouvoirs entre humains et agents d'IA de manière souhaitable. En utilisant une approche raisonnée et partiellement axiomatique, nous concevons une fonction objective paramétrable et décomposable qui représente l'inégalité du pouvoir humain et l'agrégation à long terme de l'aversion au risque. Cette fonction objective prend en compte la rationalité humaine limitée et les normes sociales, et surtout, la diversité des objectifs humains. Nous dérivons un algorithme pour calculer cette métrique par induction rétrograde ou par une forme d'apprentissage par renforcement multi-agents à partir d'un modèle mondial donné. Nous illustrons les résultats de la maximisation (en douceur) de cette mesure dans diverses situations et expliquons les sous-objectifs instrumentaux qu'elle implique. Une évaluation minutieuse suggère que la maximisation progressive d'une mesure agrégée appropriée de la puissance humaine pourrait constituer un objectif plus bénéfique pour les systèmes d'IA à agents sûrs qu'un objectif directement basé sur l'utilité.

Takeaways, Limitations

Takeaways:
Définir l’objectif de l’IA pour améliorer le pouvoir humain présente une nouvelle approche qui peut simultanément promouvoir la sécurité de l’IA et le bien-être humain.
Il fournit une méthode de conception de fonction d'objectif d'IA plus réaliste qui prend en compte divers objectifs humains, une rationalité limitée et des normes sociales.
Nous présentons un algorithme permettant de calculer la fonction objective proposée via l'induction rétrograde ou l'apprentissage par renforcement multi-agents.
Cela suggère la possibilité de concevoir des systèmes d’IA plus sûrs que la maximisation directe de l’utilité.
Limitations:
Il existe un manque de définitions claires et de mesures objectives permettant de quantifier et de mesurer le « pouvoir humain ».
Il manque une explication spécifique sur la manière de définir les paramètres et d’optimiser la fonction objective proposée.
Il existe un manque de vérification expérimentale de son applicabilité pratique et de son efficacité dans diverses situations.
Une analyse plus approfondie de la définition spécifique de la maximisation « douce » et de ses effets est nécessaire.
Il convient d’accorder une attention suffisante à la sécurité à long terme et à l’imprévisibilité.
👍