Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation

Created by
  • Haebom

저자

Ahmed Elhady, Eneko Agirre, Mikel Artetxe

개요

본 논문은 기존 대규모 언어 모델(LLM)을 새로운 언어에 적용하는 데 널리 사용되는 지속적 사전 학습(CPT) 방법에서 영어 데이터의 역할을 연구합니다. 연구 결과, 영어 데이터를 포함하면 검증 퍼플렉서티에는 영향을 미치지 않지만, 목표 언어의 하위 작업 능력 향상에는 중요한 역할을 한다는 것을 밝혔습니다. 영어 데이터를 포함하지 않은 CPT에서는 문맥 내 학습(ICL) 능력의 급격한 감소가 발생하며, 이는 훈련 후반부에 정확도 저하로 이어지기 전에 이미 목표 언어의 하위 프롬프트에 대한 일반화 능력을 손상시키고 모델 파라미터의 큰 변화와 관련이 있음을 보였습니다. 이러한 통찰을 바탕으로 영어 데이터 사용을 줄이기 위한 커리큘럼 학습과 가중치의 지수 이동 평균(EMA) 방법을 제시합니다. 결론적으로, 본 논문은 언어 적응을 위한 CPT에서 새롭게 등장하는 능력의 역학을 밝히고, 보다 효과적인 방법을 설계하기 위한 기초를 제공합니다.

시사점, 한계점

시사점:
영어 데이터가 CPT에서 목표 언어의 하위 작업 능력 향상에 필수적임을 밝힘.
영어 데이터 미포함 시 발생하는 문맥 내 학습 능력의 급격한 감소와 그 영향을 분석.
커리큘럼 학습과 EMA를 이용한 영어 데이터 의존도 감소 방안 제시.
CPT 과정에서 새롭게 등장하는 능력의 역학에 대한 이해 증진.
한계점:
제시된 커리큘럼 학습 및 EMA 방법의 일반성 및 효율성에 대한 추가 연구 필요.
다양한 언어 및 LLM에 대한 일반화 가능성 검증 필요.
영어 데이터의 역할에 대한 보다 심층적인 메커니즘 분석 필요.
👍