[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Faire du modèle de langage un classificateur et un générateur hiérarchique

Created by
  • Haebom

Auteur

Yihong Wang, Zhonglin Jiang, Ningyuan Xi, Yue Zhao, Qingqing Gu, Xiyuan Chen, Hao Wu, Sheng Xu, Hange Zhou, Yong Chen, Luo Ji

Contour

Dans cet article, nous proposons une architecture de décodeur hiérarchique reproduisant le raisonnement hiérarchique humain, tirant parti du fait que les modèles de langage à décodeur seul, tels que GPT et LLaMA, ne décodent qu'à la dernière couche. En raison de contraintes de temps et de ressources de calcul, nous adoptons une approche permettant de transformer un modèle de langage pré-entraîné en décodeur hiérarchique. Les têtes de langage de la dernière couche sont copiées dans plusieurs couches intermédiaires sélectionnées, puis affinées avec différentes entrées de tâches. Par des expérimentations, nous vérifions que les couches intermédiaires sélectionnées peuvent générer du contenu pertinent et valide. Ce paradigme de décodeur hiérarchique atteint des performances de pointe pour plusieurs tâches, telles que la classification hiérarchique de textes, la génération basée sur la classification et la génération hiérarchique de textes. Cela suggère la possibilité d'un inférenceur hiérarchique généralisé, pré-entraîné de toutes pièces.

Takeaways, Limitations

Takeaways:
Une nouvelle architecture de décodeur hiérarchique qui imite la capacité de pensée hiérarchique humaine est proposée.
Suggérer la possibilité de mettre en œuvre un décodage hiérarchique à l'aide de modèles pré-entraînés
Obtenez des performances de pointe sur une variété de tâches, notamment la classification hiérarchique de textes, la génération basée sur la classification et la génération de textes hiérarchiques.
Suggérant la possibilité de pré-entraîner un inférenceur hiérarchique généralisé
Limitations:
En raison de contraintes de temps et de ressources informatiques, des modèles pré-entraînés sont utilisés, ce qui rend difficiles les comparaisons avec des modèles appris à partir de zéro.
Des recherches supplémentaires sont nécessaires sur les critères de sélection et les méthodes d’optimisation de la couche intermédiaire sélectionnée.
Portée limitée des expériences en raison de ressources limitées
👍