[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Convertir el modelo de lenguaje en un clasificador y generador jerárquico

Created by
  • Haebom

Autor

Yihong Wang, Zhonglin Jiang, Ningyuan Xi, Yue Zhao, Qingqing Gu, Xiyuan Chen, Hao Wu, Sheng Xu, Hange Zhou, Yong Chen, Luo Ji

Describir

En este artículo, proponemos una arquitectura de decodificador jerárquico que imita la capacidad humana de razonamiento jerárquico, aprovechando que los modelos de lenguaje basados únicamente en decodificadores, como GPT y LLaMA, solo decodifican en la última capa. Debido a limitaciones de tiempo y recursos computacionales, adoptamos un enfoque para transformar un modelo de lenguaje pre-entrenado en un decodificador jerárquico. Las cabezas de lenguaje de la última capa se copian en varias capas intermedias seleccionadas y se ajustan con diferentes entradas de tarea. Mediante experimentos, verificamos que las capas intermedias seleccionadas pueden generar contenido significativo y válido, y este paradigma de decodificador jerárquico logra un rendimiento de vanguardia en varias tareas, como la clasificación jerárquica de texto, la generación basada en clasificación y la generación jerárquica de texto. Esto sugiere la posibilidad de un inferenciador jerárquico generalizado que se pre-entrena desde cero.

Takeaways, Limitations

Takeaways:
Se propone una nueva arquitectura de decodificador jerárquico que imita la capacidad de pensamiento jerárquico humano.
Sugiriendo la posibilidad de implementar la decodificación jerárquica utilizando modelos pre-entrenados
Logre un rendimiento de última generación en una variedad de tareas, incluida la clasificación de texto jerárquico, la generación basada en clasificación y la generación de texto jerárquico.
Sugiriendo la posibilidad de pre-entrenar un inferenciador jerárquico generalizado
Limitations:
Debido a limitaciones de tiempo y recursos computacionales, se utilizan modelos previamente entrenados, lo que dificulta las comparaciones con modelos aprendidos desde cero.
Se necesitan más investigaciones sobre los criterios de selección y los métodos de optimización de la capa intermedia seleccionada.
Alcance limitado de los experimentos debido a los recursos limitados
👍