Bài báo này khám phá khái niệm "quyền lực", một khái niệm then chốt trong an toàn AI. Bài báo đề cập đến việc theo đuổi quyền lực như một mục tiêu trong AI, sự mất mát đột ngột hoặc dần dần quyền lực của con người, và sự cân bằng quyền lực trong tương tác giữa con người và AI cũng như quản trị AI quốc tế. Đồng thời, quyền lực, với tư cách là khả năng theo đuổi nhiều mục tiêu, là yếu tố thiết yếu cho hạnh phúc của con người. Bài báo này khám phá ý tưởng thúc đẩy cả sự an toàn và hạnh phúc bằng cách cho phép các tác nhân AI nâng cao rõ ràng quyền lực của con người và quản lý sự cân bằng quyền lực giữa con người và các tác nhân AI theo cách mong muốn. Sử dụng một phương pháp tiếp cận có nguyên tắc và một phần tiên đề, chúng tôi thiết kế một hàm mục tiêu có thể tham số hóa và phân tích được, thể hiện sự bất bình đẳng quyền lực của con người và sự tổng hợp dài hạn không ưa rủi ro. Hàm mục tiêu này tính đến tính duy lý bị giới hạn của con người và các chuẩn mực xã hội, và quan trọng là các mục tiêu đa dạng của con người. Chúng tôi xây dựng một thuật toán để tính toán số liệu này thông qua quy nạp ngược hoặc một hình thức học tăng cường đa tác nhân từ một mô hình thế giới nhất định. Chúng tôi minh họa kết quả của việc tối đa hóa (một cách trơn tru) số liệu này trong các tình huống khác nhau và giải thích các mục tiêu phụ mang tính công cụ mà nó bao hàm. Đánh giá cẩn thận cho thấy rằng việc tối đa hóa một cách nhẹ nhàng thước đo tổng hợp thích hợp về sức mạnh của con người có thể là mục tiêu có lợi hơn cho các hệ thống AI tác nhân an toàn so với mục tiêu trực tiếp dựa trên tiện ích.