[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Búsqueda de árboles epistémicos de Monte Carlo

Created by
  • Haebom

Autor

Yaniv Oren, Villiam Vadocz, Matthijs TJ Spaan, Wendelin B ohmer

Describir

El algoritmo AlphaZero/MuZero (A/MZ) ha alcanzado un éxito notable en diversos dominios desafiantes mediante la integración de Monte Carlo Tree Search (MCTS) con modelos aprendidos. Los modelos aprendidos introducen incertidumbre epistémica derivada del aprendizaje con datos limitados, lo cual resulta útil para la exploración en entornos de recompensa dispersa. Sin embargo, MCTS no tiene en cuenta la propagación de esta incertidumbre. Para abordar este problema, presentamos Epistemic MCTS (EMCTS), un enfoque con respaldo teórico que considera la incertidumbre epistémica en la exploración y aprovecha la exploración profunda. En una tarea compleja de recompensa dispersa que requiere codificación en lenguaje ensamblador {\sc subleq}, AZ con EMCTS logra una eficiencia de muestreo significativamente mayor que la AZ de referencia. La búsqueda con EMCTS resuelve una variante de Deep Sea, un parámetro de referencia de exploración difícil de uso común que A/MZ de referencia no puede resolver en la práctica, mucho más rápido que métodos equivalentes que no utilizan la búsqueda para la estimación de la incertidumbre, lo que demuestra la importante ventaja de la exploración para la estimación de la incertidumbre epistémica.

Takeaways, Limitations

Takeaways:
EMCTS permite una exploración más eficiente en entornos de recompensa escasa.
EMCTS supera las limitaciones de los algoritmos A/MZ existentes y ayuda a resolver problemas difíciles.
Mejora la eficiencia de muestra del algoritmo A/MZ.
Demuestra la importancia de la exploración que tiene en cuenta la incertidumbre epistémica.
Limitations:
El rendimiento de EMCTS puede variar según problemas y entornos específicos.
El costo computacional de EMCTS puede ser mayor que el del MCTS convencional.
Se necesitan más experimentos en dominios de problemas más amplios.
👍