[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FUNDADOR: Fundamentación de los modelos de base en modelos mundiales para la toma de decisiones abierta y encarnada

Created by
  • Haebom

Autor

Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan

Describir

FOUNDER es un marco que integra el conocimiento generalizado del modelo de fundación (FM) con las capacidades de modelado dinámico del modelo de mundo (WM) para permitir la resolución de tareas abiertas en entornos sin recompensas. Aprende una función que mapea la representación de FM al espacio de estados de WM para inferir el estado físico del agente en el simulador de mundo a partir de observaciones externas. Este mapeo nos permite aprender una política de condicionamiento de objetivos a través de la imaginación durante el aprendizaje de acción y utiliza la acción mapeada como el estado objetivo. La distancia temporal predicha al estado objetivo se utiliza como una señal de recompensa rica en información. FOUNDER tiene un buen desempeño en una variedad de puntos de referencia de control visual offline de múltiples tareas y se destaca en la captura del significado profundo de las tareas dadas en texto o video, especialmente en escenarios con observaciones complejas o brechas de dominio donde los métodos existentes tienen dificultades. La consistencia de la función de recompensa aprendida con la recompensa real también se verifica experimentalmente. El sitio web del proyecto es https://sites.google.com/view/founder-rl .

Takeaways, Limitations

Takeaways:
Integrar el modelo base y el modelo mundial para sugerir la posibilidad de resolver problemas abiertos en un entorno implementado sin compensación.
Funciona bien en escenarios con observaciones complejas o brechas de dominio.
Captura eficazmente el significado profundo de una tarea especificada en texto o vídeo.
Verificación experimental de la consistencia de la función de recompensa aprendida.
Limitations:
Es necesario verificar el rendimiento de generalización para otros entornos o tareas más allá de los puntos de referencia presentados.
Se necesitan más investigaciones sobre la interpretabilidad y confiabilidad de la función de mapeo aprendida.
Puede existir un alto grado de dependencia de la precisión del modelo del mundo. Los errores en este modelo pueden afectar directamente el comportamiento del agente.
👍