Sign In

How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text?

Created by
  • Haebom
Category
Empty

저자

Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras

개요

본 논문은 대규모 언어 모델(LLM)이 영어 외 언어 생성 시 겪는 추론 단계 증가 문제와 그에 따른 사용 비용 증가를 해결하기 위한 연구를 제시한다. 특히, 저자들은 타겟 언어 토큰으로 어휘 확장을 시도하며, 소량의 타겟 언어 데이터(3만 문장, 약 0.01GB)만을 사용하여 어휘 확장 전략을 탐구한다. 임베딩 초기화 방법과 지속적인 사전 훈련 전략을 통해, 저자들은 추론 속도를 향상시키면서도 기존 모델과 경쟁 가능한 성능을 유지하는 방법을 제시한다.

시사점, 한계점

시사점:
소량의 타겟 언어 데이터만을 사용하여 LLM의 추론 속도를 향상시키는 효과적인 어휘 확장 전략을 제시.
다양한 언어, 작업 및 모델에 대한 광범위한 실험을 통해 일반화 가능성을 입증.
저자원 환경에서 LLM의 효율성을 개선하는 실용적인 방법 제시.
한계점:
논문에서 구체적인 성능 지표 및 비교 대상 모델에 대한 자세한 정보 부족.
제시된 방법의 확장성 및 다른 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
어휘 확장이 다운스트림 성능에 미치는 영향에 대한 더 깊이 있는 분석 필요.
👍