[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los LLM pequeños no aprenden una teoría de la mente generalizable mediante aprendizaje de refuerzo

Created by
  • Haebom

Autor

Sneheel Sarangi, Hanan Salam

Describir

Este artículo investiga si un modelo de lenguaje a gran escala (LLM) puede ser dotado con inteligencia social sutil similar a la humana, a saber, mente teórica (ToM), mediante técnicas de aprendizaje post-refuerzo (RL). Llevamos a cabo experimentos sistemáticos para entrenar LLMs a pequeña escala en varios conjuntos de datos ToM (HiToM, ExploreToM, FANToM) y evaluamos su capacidad de generalización en conjuntos de datos de reserva (p. ej., OpenToM). Encontramos que los LLMs a pequeña escala tienen dificultad para adquirir habilidades generales de ToM. Aunque su desempeño en los datos de entrenamiento mejora, no se transfieren a tareas de ToM no vistas con diferentes características. Además, mostramos que el entrenamiento RL a largo plazo lleva al modelo a "hackear" patrones estadísticos en el conjunto de datos de entrenamiento, lo que resulta en mejoras significativas en el desempeño en datos dentro del dominio pero ningún cambio o degradación en el desempeño en tareas fuera del dominio. Esto sugiere que el comportamiento aprendido no es la adquisición de habilidades de ToM verdaderamente abstractas, sino más bien una especie de sobreajuste estrecho.

Takeaways, Limitations

Takeaways: Presentamos la dificultad de adquirir la capacidad de ToM mediante aprendizaje por refuerzo en LLM a pequeña escala y la posibilidad de un sobreajuste simple. Al mostrar claramente las limitaciones del aprendizaje de ToM basado en RL, sugerimos futuras líneas de investigación.
Limitations: La escala del LLM utilizado en el experimento es pequeña, por lo que no se sabe con certeza si los resultados serían los mismos al extenderse a un LLM a gran escala. Se requiere mayor debate sobre la definición y el método de evaluación de la capacidad de ToM. Se requiere investigación adicional sobre la aplicación de diversas técnicas de aprendizaje por refuerzo o funciones de recompensa.
👍