[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recompensas intrínsecas en línea para los agentes que toman decisiones a partir de la retroalimentación de modelos de lenguaje amplios

Created by
  • Haebom

Autor

Qinqing Zheng, Mikael Henaff, Amy Zhang, Aditya Grover, Brandon Amos

Describir

En este artículo, presentamos un método para sintetizar automáticamente recompensas densas a partir de explicaciones en lenguaje natural en el aprendizaje por refuerzo. Para abordar los problemas de escalabilidad de las anotaciones LLM en estudios previos (T2070) y la necesidad de grandes conjuntos de datos sin conexión, proponemos una arquitectura distribuida, ONI. ONI anota la experiencia del agente a través de un servidor LLM asíncrono y la descompone en un modelo de recompensa intrínseco. Exploramos diversos algoritmos, como modelos de hash, clasificación y ranking, y logramos un rendimiento de vanguardia en diversas tareas en el entorno de aprendizaje NetHack. A diferencia de estudios previos, no requiere grandes conjuntos de datos sin conexión. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Solución del problema de escalabilidad de la síntesis de compensación densa utilizando explicaciones en lenguaje natural basadas en LLM.
Entrenamiento de agentes de aprendizaje de refuerzo sin grandes conjuntos de datos fuera de línea.
Presentando la posibilidad de modelar la recompensa óptima a través de varias opciones algorítmicas.
Lograr un rendimiento de vanguardia en el entorno de aprendizaje NetHack.
Aumentar la reproducibilidad y escalabilidad de la investigación mediante la divulgación de código fuente abierto.
Limitations:
Dependencia del servidor LLM: puede producirse una degradación del rendimiento según el rendimiento y la disponibilidad del servidor LLM.
Complejidad del algoritmo: necesidad de comparar y optimizar el rendimiento de diferentes algoritmos.
Rendimiento de generalización: el rendimiento específico del entorno NetHack debe verificarse para generalizarse a otros entornos.
👍