Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MachineLearningLM: Scaling Many-shot In-context Learning via Continued Pretraining

Created by
  • Haebom

저자

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke

개요

본 논문은 대규모 언어 모델(LLM)이 기존 기계 학습(ML) 과제에서 많은 맥락 내 예시로부터 학습하는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위한 MachineLearningLM이라는 새로운 사전 학습 프레임워크를 제시합니다. MachineLearningLM은 수백만 개의 구조적 인과 모델(SCM)로부터 ML 과제를 생성하여 일반적인 LLM에 강력한 맥락 내 ML 기능을 부여합니다. 랜덤 포레스트 교사로부터 트리 기반 의사결정 전략을 증류하여 수치적 모델링의 강건성을 높이고, 토큰 효율적인 프롬프트를 사용하여 맥락 창당 예시 수를 3~6배 늘리고 배치 추론을 통해 처리량을 최대 50배 향상시킵니다. 결과적으로, 소규모 설정(Qwen-2.5-7B-Instruct with LoRA rank 8)에도 불구하고, 다양한 분야(금융, 물리, 생물학, 의료)의 분포 외 표 데이터 분류에서 기존 강력한 LLM 기준 모델(예: GPT-5-mini)보다 평균 약 15% 높은 성능을 보이며, 맥락 내 예시가 8개에서 1,024개로 증가함에 따라 정확도가 단조 증가하는 현저한 다중 샷 스케일링 법칙을 나타냅니다. 과제별 학습 없이도 수백 개의 샷에서 랜덤 포레스트 수준의 정확도를 달성하며, MMLU에서 75.4%의 성능으로 지식 및 추론을 포함한 일반적인 채팅 기능도 유지합니다.

시사점, 한계점

시사점:
LLM의 맥락 내 학습 능력을 향상시키는 효과적인 사전 학습 프레임워크 제시.
토큰 효율적인 프롬프트 및 배치 추론을 통한 뛰어난 처리량 향상.
다양한 분야에서 기존 LLM 대비 우수한 성능을 보임.
맥락 내 예시 개수 증가에 따른 성능 향상을 보이는 다중 샷 스케일링 법칙 확인.
일반적인 채팅 기능 유지.
한계점:
현재는 특정 LLM(Qwen-2.5-7B-Instruct)과 LoRA를 사용한 실험 결과 제시에 그침. 다른 LLM에 대한 일반화 가능성 검증 필요.
SCM 생성 방식 및 랜덤 포레스트 교사 활용의 자세한 설명 부족.
실험에 사용된 데이터셋 및 평가 지표에 대한 상세한 설명 부족.
실제 응용 분야에서의 성능 및 안정성에 대한 추가적인 연구 필요.
👍