Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Actor-Critic based Online Data Mixing For Language Model Pre-Training

Created by
  • Haebom

저자

Jing Ma, Chenhao Dang, Mingjie Liao

개요

본 논문은 대규모 언어 모델(LLM)의 일반화 능력에 미치는 사전 학습 데이터의 적용 범위와 구성의 영향을 연구합니다. 기존의 데이터 믹싱 방법들이 훈련 역학과의 연관성 없이 소규모 프록시 모델의 최적화된 도메인 가중치를 적용하는 한계를 지적하며, 다중 무장 밴딧 알고리즘을 데이터 샘플링 전략으로 사용하는 온라인 데이터 믹싱(ODM) 방법을 개선합니다. 본 논문에서는 보조 actor-critic 네트워크를 통해 변화하는 도메인 가중치를 포착하고 보상 함수를 통해 도메인 간 상호 작용을 고려하는 actor-critic 기반 온라인 데이터 믹싱(AC-ODM) 방법을 제시합니다. 소규모 프록시 LLM을 환경으로 사용하여 훈련된 actor를 샘플링 전략으로 직접 적용하여 대규모 목표 LLM의 사전 훈련 효율성을 높이고 수렴 속도를 향상시킵니다. 실험 결과, AC-ODM-410M은 ODM보다 71% 빠르게 최적의 검증 perplexity에 도달하고, zero-shot MMLU 벤치마크에서 정확도가 27.5% 향상되었으며, HumanEval 벤치마크의 pass@1에서 2.23배 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
actor-critic 기반 온라인 데이터 믹싱(AC-ODM) 방법을 통해 대규모 언어 모델 사전 훈련의 효율성과 성능을 향상시킬 수 있음을 보임.
프록시 모델의 크기 조절을 통해 다양한 환경에서 AC-ODM의 적용 가능성을 제시.
사전 훈련 데이터의 효율적인 사용을 통해 환경 친화적이고 경제적인 LLM 훈련 방식을 제시.
한계점:
프록시 모델의 성능에 AC-ODM의 성능이 의존적일 수 있음.
특정 벤치마크에 대한 성능 향상이 다른 벤치마크로 일반화될 수 있는지에 대한 추가 연구 필요.
다양한 크기의 프록시 모델과 대상 모델에 대한 추가 실험 필요.
AC-ODM의 계산 비용 및 복잡성에 대한 심층적인 분석 필요.
👍