Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recomendación explicable con retroalimentación humana simulada

Created by
  • Haebom

Autor

Jiakai Tang, Jingsen Zhang, Zihang Tian, Xueyang Feng, Lei Wang, Xu Chen

Describir

Para superar las deficiencias de los sistemas de recomendación explicables existentes, este artículo propone un marco de optimización de interacción dinámica basado en retroalimentación similar a la humana. Este marco utiliza un modelo de lenguaje a gran escala (LLM) como simulador humano para predecir la retroalimentación humana y mejora la comprensión del lenguaje y las capacidades de razonamiento lógico del LLM mediante un método de puntuación de recompensas personalizado. Además, se introduce la optimización de Pareto para abordar el equilibrio entre la calidad de la explicación desde diversas perspectivas, y se utiliza un proceso de optimización fuera de política para lograr un aprendizaje eficiente del modelo. Los resultados experimentales demuestran que el método propuesto supera a los métodos existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que puede mejorar el rendimiento de los sistemas de recomendación explicables aprovechando la retroalimentación similar a la humana.
Aproveche modelos de lenguaje a gran escala para imitar de manera eficiente la retroalimentación humana y brindar explicaciones personalizadas.
Considere simultáneamente la calidad de la explicación desde múltiples perspectivas a través de la optimización de Pareto.
Aumente la utilización de datos y mejore el rendimiento de generalización del modelo mediante la optimización fuera de política.
Limitations:
Depende del rendimiento de LLM, y el sesgo de LLM puede afectar los resultados.
Diseñar un método de puntuación de recompensas personalizado para el usuario puede ser subjetivo.
Se necesita una validación adicional del rendimiento de generalización en varios conjuntos de datos.
Los costos computacionales pueden aumentar durante el proceso de optimización de Pareto.
👍