Aleph-Alpha-GermanWeb: Improving German-language LLM pre-training with model-based data curation and synthetic data generation
Created by
Haebom
저자
Thomas F Burns, Letitia Parcalabescu, Stephan Waldchen, Michael Barlow, Gregor Ziegltrum, Volker Stampa, Bastian Harren, Bjorn Deiseroth
개요
본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 데이터 품질 향상에 중점을 둔 독일어 데이터셋 구축 파이프라인을 제시합니다. 기존 웹 데이터(Common Crawl, FineWeb2)와 모델 기반 필터링 및 합성 데이터 생성 기술을 결합하여 Aleph-Alpha-GermanWeb이라는 대규모 독일어 사전 학습 데이터셋을 생성하였습니다. 10억 파라미터 Llama 스타일 모델과 80억 파라미터 HAT 모델을 이용한 실험 결과, Aleph-Alpha-GermanWeb은 FineWeb2 단독 사용 대비 독일어 벤치마크(MMMLU 포함)에서 성능 향상을 보였으며, Wikipedia와 같은 고품질 데이터로 보강된 FineWeb2보다도 80억 파라미터 모델에서 우수한 성능을 나타냈습니다. 이는 모델 기반 데이터 정제 및 합성 데이터 생성이 LLM 사전 학습 데이터셋 향상에 효과적임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
모델 기반 필터링과 합성 데이터 생성을 활용한 데이터셋 구축 파이프라인의 효용성을 제시.
◦
데이터 품질 향상을 통한 LLM 성능 및 학습 효율 개선 가능성을 확인.
◦
대규모 언어 모델의 성능 향상을 위한 데이터셋 구축 전략에 대한 새로운 방향 제시.
◦
Aleph-Alpha-GermanWeb 데이터셋은 독일어 LLM 연구에 기여할 중요한 자원.
•
한계점:
◦
제시된 파이프라인의 일반화 가능성에 대한 추가 연구 필요. (다른 언어 및 도메인으로의 확장성 검증)
◦
합성 데이터의 품질 및 편향에 대한 추가적인 분석 필요.
◦
사용된 벤치마크의 한계 및 다른 벤치마크에 대한 성능 평가 필요.
◦
80억 파라미터 모델에서만 우수한 성능을 보였기에, 다른 규모의 모델에 대한 추가 실험 필요.