Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable

Created by
  • Haebom

저자

Jianqiao Wangni

개요

본 논문은 매일 수백만 명의 사용자가 사용하는 현대 대규모 언어 기반 모델(LLM)을 사용자 또는 작업별로 맞춤화하는 방법을 제안한다. 기존 LLM과 온라인 서비스 시스템을 최대한 활용하기 위해, 사전 훈련된 LLM의 최종 계층 임베딩에 추가적인 트랜스포머 블록 분기를 훈련하는 프레임워크를 제시한다. 이후, 캐리온 모듈을 통해 기본 모델을 병합하여 맞춤형 LLM을 구성한다. 여러 계층 또는 다양한 도메인(채팅, 코딩, 수학 등)에 특화된 여러 LLM을 혼합하여 새로운 작업에 가장 적합한 LLM을 형성할 수 있다. 기본 모델의 매개변수를 업데이트할 필요가 없으므로, 훈련 작업의 대부분을 추론 노드에서 처리하고, 경량의 캐리온만 훈련 노드에서 훈련하여 GPU 메모리 사용량을 줄일 수 있다(예: 30B LLM에 1억 매개변수의 캐리온 계층 훈련 시 1GB 미만). Qwen 및 DeepSeek 오픈소스 모델을 사용하여 지속적 사전 훈련을 수행하여 빠른 손실 수렴을 확인했으며, 극히 적은 계산량과 모델 크기로 수학 문제 해결 성능을 향상시켰다 (1000개의 사고 과정 데이터 샘플, 1MB 미만의 2계층 캐리온 매개변수).

시사점, 한계점

시사점:
기존 LLM을 효율적으로 사용자 또는 작업별로 맞춤화할 수 있는 새로운 프레임워크 제시.
추론 노드를 활용하여 훈련 비용을 절감하고, 경량 모델로 성능 향상 가능성을 보여줌.
소규모 데이터셋으로도 효과적인 맞춤형 LLM 생성 가능성 제시.
다양한 도메인의 LLM을 결합하여 새로운 작업에 최적화된 모델 생성 가능.
한계점:
제안된 프레임워크의 일반화 성능 및 다양한 작업에 대한 적용 가능성에 대한 추가적인 연구 필요.
사용된 데이터셋의 크기와 특성이 결과에 미치는 영향에 대한 분석 필요.
캐리온 모듈의 설계 및 최적화에 대한 추가적인 연구 필요.
대규모 실험 및 다양한 LLM에 대한 적용 결과 제시 부족.
👍