[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de políticas submodulares escalables mediante gráficos de submodularidad podados

Created by
  • Haebom

Autor

Aditi Anand, Suman Banerjee, Dildar Ali

Describir

Este artículo aborda el caso en el que la función de recompensa es submodular en el aprendizaje por refuerzo (AR). En el AR convencional, se asume que la función de recompensa es aditiva, pero en problemas reales como la planificación de rutas o el control adaptativo, resulta más apropiado modelarla como una función submodular con rendimientos decrecientes. En este artículo, proponemos una técnica de poda submodular basada en grafos para problemas de AR con funciones de recompensa submodulares. Demostramos que la técnica encuentra una política óptima aproximada dentro de un tiempo computable y analizamos la complejidad temporal y espacial, así como la garantía de rendimiento. Mediante experimentos con un entorno de referencia utilizado en estudios previos, confirmamos que la técnica propuesta obtiene mayores recompensas que los métodos existentes.

Takeaways, Limitations

Takeaways: Presentamos una solución eficiente y aproximada a problemas de aprendizaje por repetición (RL) con funciones de recompensa parcialmente modulares. Demostramos la superioridad de la técnica propuesta mediante resultados experimentales que muestran que obtiene mayores recompensas que los métodos existentes. Garantizamos su viabilidad mediante análisis de complejidad temporal y espacial.
Limitations: La garantía de rendimiento de la técnica propuesta se limita a soluciones aproximadas y no garantiza soluciones óptimas. Los experimentos se limitan a un entorno de referencia específico, y el rendimiento de generalización en otros entornos requiere investigación adicional. Además, se requiere un análisis de aplicabilidad y rendimiento para diversos tipos de funciones modulares parciales.
👍