Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Making Language Model a Hierarchical Classifier

Created by
  • Haebom

저자

Yihong Wang, Zhonglin Jiang, Ningyuan Xi, Yue Zhao, Qingqing Gu, Xiyuan Chen, Hao Wu, Sheng Xu, Hange Zhou, Yong Chen, Luo Ji

개요

GPT, LLaMA와 같은 디코더 전용 언어 모델은 일반적으로 마지막 레이어에서 디코딩을 수행합니다. 본 연구는 인간의 계층적 사고 능력을 바탕으로, 서로 다른 레이어에서 텍스트를 동시에 디코딩하는 계층적 디코더 아키텍처를 제안합니다. 사전 훈련된 언어 모델을 이 계층적 디코더 형태로 적응시키기 위해, 마지막 레이어의 언어 헤드를 선택된 중간 레이어에 복사하고 서로 다른 작업 입력으로 미세 조정합니다. 실험을 통해, 이러한 선택적 중간 레이어가 의미 있고 합리적인 내용을 생성할 수 있음을 확인했으며, 이 계층적 디코더 패러다임이 계층적 텍스트 분류, 분류 기반 생성, 계층적 텍스트 생성과 같은 여러 작업에서 SOTA 성능을 달성했습니다. HdLM은 WoS, DBpedia, ESconv, EmpatheticDialogues 및 여러 인지 테스트에서 모든 기준선을 능가합니다. 또한, 방법론의 수렴 및 계산 절감에 대한 철저한 이론적 분석을 제공합니다. 본 연구는 처음부터 훈련된 일반화된 계층적 리소너의 가능성을 제시합니다.

시사점, 한계점

시사점:
계층적 디코더 아키텍처를 통해 언어 모델의 성능을 향상시킬 수 있음.
선택적 중간 레이어를 활용하여 사전 훈련된 모델을 효율적으로 적응시킬 수 있음.
다양한 작업에서 SOTA 성능을 달성하며, 특히 계층적 작업에 효과적임.
이론적 분석을 통해 방법론의 타당성을 검증함.
처음부터 훈련된 일반화된 계층적 리소너 개발 가능성을 제시함.
한계점:
시간 및 계산 자원 제약으로 인해 사전 훈련된 모델을 사용함.
특정 레이어 선택 및 미세 조정 방법에 대한 추가 연구가 필요함.
모델의 일반화 능력에 대한 추가적인 평가가 필요함.
👍