본 논문은 대규모 언어 모델(LLM)이 기존 기계 학습(ML) 과제에서 많은 맥락 내 예시로부터 학습하는 데 어려움을 겪는다는 문제를 해결하기 위해, MachineLearningLM이라는 새로운 지속적 사전 학습 프레임워크를 제시합니다. MachineLearningLM은 수백만 개의 구조적 인과 모델(SCM)로부터 생성된 ML 과제를 이용하여 LLM을 사전 학습합니다. 특히, 랜덤 포레스트를 사용하여 트리 기반 의사 결정 전략을 LLM에 주입하여 수치적 모델링의 강건성을 높이고, 토큰 효율적인 프롬프트를 사용하여 맥락 창당 예시 수를 3~6배 증가시키고 배치 추론을 통해 처리량을 최대 50배 향상시킵니다. 결과적으로, Qwen-2.5-7B-Instruct 기반의 소규모 설정에도 불구하고, 다양한 분야(금융, 물리, 생물학, 의료)의 분포 외 표 데이터 분류에서 기존 강력한 LLM 기준 모델보다 평균 15% 높은 성능을 보이며, 맥락 내 예시 수가 증가함에 따라 정확도가 단조적으로 증가하는 현상을 보입니다. 또한, MMLU에서 75.4%의 성능을 달성하여 일반적인 대화 능력도 유지합니다.