Sign In

PTPP-Aware Adaptation Scaling Laws: Predicting Domain-Adaptation Performance at Unseen Pre-Training Budgets

Created by
  • Haebom
Category
Empty

저자

Etienne Goffinet, Shane Bergsma, Avraham Sheinin, Natalia Vassilieva, Shaheer Muhammad, Preslav Nakov, Gurpreet Gosal

개요

도메인 적응을 위한 지속적인 사전 훈련(CPT)은 대상 도메인 이득과 기본 도메인의 안정성 사이의 균형을 유지해야 합니다. 기존의 CPT 스케일링 법칙은 일반적으로 고정된 사전 훈련 예산을 가정하여, 서로 다른 토큰-파라미터당 토큰 수(PTPP)로 훈련된 모델의 적응 결과를 예측하는 데 한계가 있습니다. 이 연구에서는 사전 훈련 예산을 명시적 변수로 만드는 PTPP 인식 적응 스케일링 법칙을 제시하여, 보지 못한 PTPP에서의 적응 손실을 정확하게 예측할 수 있도록 합니다. 다국어 설정(영어/아랍어 -> 프랑스어)에서 초기 단계(PTPP={15, 31})에서 훈련된 PTPP 인식 공식은 PTPP=279에서 대상 손실을 예측하고, 메트릭(Huber-on-log, MAErel, 보정 기울기)에서 PTPP 무관 D-CPT 전송 기준선보다 우수한 성능을 보입니다. 전체 진단(RMSE, MAPE)은 부록에 있습니다. 예측 외에도, 이 연구는 재현 비율과 적응 토큰 예산을 계획하여 계산 한계 내에서 대상 및 망각 제약 조건을 충족시키는 실용적인 사용 사례를 보여줍니다.

시사점, 한계점

PTPP 인식 적응 스케일링 법칙을 통해 보지 못한 PTPP에서의 적응 손실을 정확하게 예측할 수 있습니다.
다국어 설정에서 PTPP 인식 공식이 PTPP 무관 기준선보다 우수한 성능을 보였습니다.
계산 한계 내에서 재현 비율과 적응 토큰 예산을 계획하는 데 활용할 수 있습니다.
연구는 다국어 설정에 국한되어 있으며, 다른 도메인 또는 설정에서의 일반화 가능성을 추가로 연구해야 합니다.
초기 단계의 PTPP 데이터만을 사용하여 고차원 PTPP의 성능을 예측하는 데 한계가 있을 수 있습니다.
RMSE 및 MAPE와 같은 전체 진단 결과는 부록에 제시되어 있어, 본문에서 직접적인 분석이 부족합니다.
👍