Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization

Created by

Haebom

저자

Arvid E. Gollwitzer, Paridhi Latawa, David de Gruijl, Deepak A. Subramanian, Adrian Noriega de la Colina

💡 개요

기존의 토큰화 방법론은 데이터 신호의 품질을 고려하지 않아 실제 세계의 노이즈가 많은 데이터셋에서의 효과가 제한적이었습니다. 본 논문은 데이터의 신뢰성을 어휘 구축에 직접 통합하는 QA-Token(Quality-Aware Tokenization) 방법을 제안합니다. 이 방법은 다운스트림 성능과 어휘 구축을 동시에 최적화하는 이중 최적화 문제와 품질 인식 보상을 통한 강화 학습 기반의 어휘 학습을 특징으로 하며, 최종적으로 노이즈가 많은 실제 데이터셋에서 재단 모델 사전 학습의 성능을 크게 향상시킵니다.

🔑 시사점 및 한계

•

실제 세계의 노이즈가 많은 데이터를 효과적으로 활용할 수 있는 새로운 토큰화 방법론을 제시했습니다.

•

유전체학 및 금융 분야에서 기존 방법론 대비 우수한 성능 향상을 입증했습니다.

•

대규모 재단 모델 학습에 적용하여 성능을 높이고 토큰 수를 줄이는 성과를 거두었습니다.

•

(한계점 또는 향후 과제) 제안된 방법론의 일반적인 적용 가능성과 다양한 도메인에서의 성능 검증이 추가적으로 필요할 수 있습니다.

PDF 보기

Made with Slashpage