Sign In

Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

Created by
  • Haebom
Category
Empty

저자

Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman

개요

본 논문은 대규모 언어 모델(LLM)의 미니배치 크기를 늘려 훈련 속도를 개선하고 성능을 향상시키는 방법을 제안합니다. 대규모 미니배치 사용은 GPU 메모리 요구량 증가로 인해 LLM 훈련에 어려움을 초래하는데, 본 논문에서는 큰 미니배치의 기울기와 유사한 작은 미니배치 코어셋을 찾는 기존 접근 방식의 한계를 지적합니다. 특히, 언어 데이터의 불균형, Adam 최적화 알고리즘 사용, 그리고 매우 큰 기울기 차원 등이 문제점으로 지적됩니다. 이를 해결하기 위해, CoLM(Coresets for Training LLMs)이라는 새로운 방법을 제안합니다. CoLM은 작은 소스의 모든 예제를 포함하고, 기울기를 지수적으로 정규화하며, 0차 방법을 활용하여 기울기의 매끄러운 근사값을 구하고 스파스화하는 기법을 사용합니다. 실험 결과, CoLM은 Phi-2, Phi-3, Zephyr, Llama-3 모델의 미세 조정에서 메모리 요구량을 2배 줄이고, 4배 큰 미니배치로 훈련하는 것보다 나은 성능을 보였으며, LoRA와 같은 기존의 메모리 효율적인 훈련 방법과도 원활하게 통합됩니다.

시사점, 한계점

시사점:
LLM 미세 조정 시 메모리 사용량을 효과적으로 줄일 수 있는 새로운 방법 제시 (최대 2배 감소).
기존의 큰 미니배치 훈련보다 우수한 성능 달성 가능 (4배 큰 미니배치보다 나은 성능).
LoRA 등 기존 메모리 효율적 훈련 기법과의 원활한 통합 가능.
불균형 데이터셋에서의 LLM 훈련 성능 향상에 기여.
한계점:
CoLM의 성능은 특정 LLM 아키텍처와 데이터셋에 의존적일 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함.
다른 최적화 알고리즘에 대한 적용성 검증 필요.
매우 큰 모델에 대한 적용성 및 확장성에 대한 추가 연구 필요.
👍