[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Making Language Model a Hierarchical Classifier and Generator

Created by
  • Haebom

저자

Yihong Wang, Zhonglin Jiang, Ningyuan Xi, Yue Zhao, Qingqing Gu, Xiyuan Chen, Hao Wu, Sheng Xu, Hange Zhou, Yong Chen, Luo Ji

개요

본 논문은 GPT, LLaMA와 같은 디코더 전용 언어 모델이 마지막 계층에서만 디코딩하는 점에 착안하여, 인간의 계층적 사고 능력을 모방한 계층적 디코더 아키텍처를 제안합니다. 시간 및 계산 자원의 제약으로 인해 사전 훈련된 언어 모델을 계층적 디코더 형태로 변형하는 방식을 채택했습니다. 마지막 계층의 언어 헤드를 여러 선택된 중간 계층에 복사하고, 서로 다른 작업 입력으로 미세 조정합니다. 실험을 통해 선택된 중간 계층이 의미 있고 타당한 내용을 생성할 수 있으며, 이 계층적 디코더 패러다임이 계층적 텍스트 분류, 분류 기반 생성, 계층적 텍스트 생성 등 여러 작업에서 최첨단 성능을 달성함을 검증했습니다. 이는 처음부터 새롭게 사전 훈련하는 일반화된 계층적 추론기의 가능성을 시사합니다.

시사점, 한계점

시사점:
인간의 계층적 사고 능력을 모방한 새로운 계층적 디코더 아키텍처 제안
사전 훈련된 모델을 활용하여 계층적 디코딩 구현 가능성 제시
계층적 텍스트 분류, 분류 기반 생성, 계층적 텍스트 생성 등 다양한 작업에서 최첨단 성능 달성
일반화된 계층적 추론기 사전 훈련 가능성 제시
한계점:
시간 및 계산 자원의 제약으로 인해 사전 훈련된 모델을 활용, 처음부터 새롭게 학습하는 모델과의 비교 부족
선택된 중간 계층의 선택 기준 및 최적화 방법에 대한 추가적인 연구 필요
제한된 자원으로 인한 실험 범위의 제약
👍