Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo seguro mediante el modelo de privacidad Shuffle

Created by
  • Haebom

Autor

Shaojie Bai, Mohammad Sadegh Talebi, Chengcheng Zhao, Peng Cheng, Jiming Chen

Describir

Este artículo se centra en los problemas de privacidad en el aprendizaje por refuerzo (AR), en particular el riesgo de ataques de inferencia de privacidad en sistemas ciberfísicos (SFC). Los modelos centralizados de privacidad diferencial (PD) existentes dependen de servidores de confianza, mientras que los modelos locales distribuidos sufren una grave degradación del rendimiento. Por lo tanto, este artículo propone un nuevo algoritmo para el AR episódico, la Eliminación de Políticas de Privacidad Diferencial Reorganizada (SDP-PE), que utiliza el modelo aleatorio, un modelo de confianza intermedia. SDP-PE equilibra la privacidad y el rendimiento del aprendizaje mediante la introducción de una programación por lotes exponencial y un mecanismo de "olvido", logrando un límite superior de arrepentimiento casi óptimo y ofreciendo un equilibrio entre privacidad y arrepentimiento superior al de los modelos locales. Esto demuestra la aplicabilidad del modelo aleatorio para el control seguro de SFC basados ​​en datos.

Takeaways, Limitations

Takeaways:
Proponemos una nueva solución al problema del aprendizaje de refuerzo que preserva la privacidad en entornos CPS presentando un algoritmo de aprendizaje de refuerzo, SDP-PE, que utiliza el modelo aleatorio.
SDP-PE supera las limitaciones de los modelos centralizados y locales existentes y logra efectivamente un equilibrio entre privacidad y rendimiento.
Presentamos un método para controlar eficazmente el equilibrio entre la privacidad y el rendimiento del aprendizaje a través de una programación de lotes exponencial y un mecanismo de "olvido".
Demostración de la viabilidad del modelo Shuffle para el control seguro basado en datos de CPS.
Limitations:
Dependencia de los supuestos del modelo de mezcla: dado que el modelo de mezcla no garantiza un anonimato perfecto, es posible que se necesiten más investigaciones para investigar el potencial de ataque durante el proceso de mezcla.
Complejidad del algoritmo: La alta complejidad del algoritmo SDP-PE puede dificultar su implementación y aplicación en la práctica.
Limitaciones del RL episódico: Los resultados de este artículo se limitan al RL episódico y su aplicabilidad a problemas de RL continuo requiere más estudios.
👍