Sign In

Unsupervised Topic Models are Data Mixers for Pre-training Language Models

Created by
  • Haebom
Category
Empty

저자

Jiahui Peng, Xinlin Zhuang, Qiu Jiantao, Ren Ma, Jing Yu, Tianyi Bai, Conghui He

개요

본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 기존의 도메인 기반 데이터 믹싱 방식 대신, 세분화된 주제 기반 데이터 믹싱 전략을 제안합니다. 주제 모델링 기법인 DataWeave를 사용하여 의미적으로 유사한 문서들을 그룹화하고 LLM을 활용하여 상세한 주제를 생성하여 데이터셋 구성에 대한 이해도를 높입니다. DataWeave는 다단계 클러스터링 과정을 거치며, 특정 주제를 상향 또는 하향 샘플링하는 휴리스틱 방법을 통해 LLM의 하위 작업 성능을 크게 향상시키고, 기존의 복잡한 데이터 믹싱 방식보다 우수한 결과를 달성합니다. 특히 '과학'과 '관계' 주제가 성능 향상에 가장 효과적임을 확인하였으며, 코드와 데이터셋을 공개할 예정입니다.

시사점, 한계점

시사점:
주제 기반 데이터 믹싱 전략을 통해 LLM 성능을 효과적으로 향상시킬 수 있음을 보여줌.
DataWeave를 활용한 세분화된 주제 분석이 데이터셋 구성 이해 및 LLM 성능 최적화에 기여함.
단순하면서도 효과적인 데이터 믹싱 방법 제시.
특정 주제(과학, 관계)의 중요성을 밝힘.
코드와 데이터셋 공개를 통해 연구 재현성 및 확장성 확보.
한계점:
DataWeave의 성능 및 일반화 가능성에 대한 추가적인 검증 필요.
휴리스틱 방법의 한계 및 개선 가능성 존재.
다양한 LLM 및 하위 작업에 대한 일반화 가능성 검토 필요.
주제 선정 및 가중치 조절 방식의 주관성 및 개선 여지 존재.
👍