Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Maximización suave basada en modelos de métricas adecuadas del poder humano a largo plazo

Created by
  • Haebom

Autor

Jobst Heitzig, Ram Potham

Describir

Este artículo explora el concepto de "poder", un concepto clave en la seguridad de la IA. Aborda la búsqueda de poder como objetivo en la IA, la pérdida repentina o gradual del poder humano y el equilibrio de poder en las interacciones entre humanos e IA, así como en la gobernanza internacional de la IA. Simultáneamente, el poder, como capacidad para perseguir múltiples objetivos, es esencial para el bienestar humano. Este artículo explora la idea de promover tanto la seguridad como el bienestar permitiendo que los agentes de IA mejoren explícitamente el poder humano y gestionen el equilibrio de poder entre humanos y agentes de IA de forma deseable. Utilizando un enfoque basado en principios y parcialmente axiomático, diseñamos una función objetivo parametrizable y descomponible que representa la desigualdad de poder humano y la agregación a largo plazo con aversión al riesgo. Esta función objetivo considera la racionalidad humana limitada y las normas sociales, y, de manera importante, la diversidad de objetivos humanos. Derivamos un algoritmo para calcular esta métrica mediante inducción retrógrada o una forma de aprendizaje por refuerzo multiagente a partir de un modelo de mundo dado. Ilustramos los resultados de maximizar (suavemente) esta métrica en diversas situaciones y explicamos los subobjetivos instrumentales que conlleva. Una evaluación cuidadosa sugiere que maximizar suavemente una medida agregada apropiada de la potencia humana puede constituir un objetivo más beneficioso para los sistemas de IA de agentes seguros que un objetivo directo basado en la utilidad.

Takeaways, Limitations

Takeaways:
Establecer el objetivo de la IA de mejorar el poder humano presenta un nuevo enfoque que puede promover simultáneamente la seguridad de la IA y el bienestar humano.
Proporciona un método de diseño de funciones objetivo de IA más realista que tiene en cuenta diversos objetivos humanos, racionalidad limitada y normas sociales.
Presentamos un algoritmo para calcular la función objetivo propuesta mediante inducción hacia atrás o aprendizaje de refuerzo de múltiples agentes.
Sugiere la posibilidad de diseñar sistemas de IA que sean más seguros que la maximización directa de la utilidad.
Limitations:
Hay una falta de definiciones claras y métricas objetivas para cuantificar y medir el “poder humano”.
Falta una explicación específica sobre cómo establecer parámetros y optimizar la función objetivo propuesta.
Falta verificación experimental de su aplicabilidad práctica y eficacia en diversas situaciones.
Es necesario un análisis más profundo de la definición específica de maximización “suave” y sus efectos.
Se debe prestar suficiente consideración a la seguridad y la imprevisibilidad a largo plazo.
👍