Sign In

Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization

Created by
  • Haebom
Category
Empty

μ €μž

Arvid E. Gollwitzer, Paridhi Latawa, David de Gruijl, Deepak A. Subramanian, Adrian Noriega de la Colina

πŸ’‘ κ°œμš”

기쑴의 토큰화 방법둠은 데이터 μ‹ ν˜Έμ˜ ν’ˆμ§ˆμ„ κ³ λ €ν•˜μ§€ μ•Šμ•„ μ‹€μ œ μ„Έκ³„μ˜ λ…Έμ΄μ¦ˆκ°€ λ§Žμ€ λ°μ΄ν„°μ…‹μ—μ„œμ˜ νš¨κ³Όκ°€ μ œν•œμ μ΄μ—ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 λ°μ΄ν„°μ˜ 신뒰성을 μ–΄νœ˜ ꡬ좕에 직접 ν†΅ν•©ν•˜λŠ” QA-Token(Quality-Aware Tokenization) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. 이 방법은 λ‹€μš΄μŠ€νŠΈλ¦Ό μ„±λŠ₯κ³Ό μ–΄νœ˜ ꡬ좕을 λ™μ‹œμ— μ΅œμ ν™”ν•˜λŠ” 이쀑 μ΅œμ ν™” λ¬Έμ œμ™€ ν’ˆμ§ˆ 인식 보상을 ν†΅ν•œ κ°•ν™” ν•™μŠ΅ 기반의 μ–΄νœ˜ ν•™μŠ΅μ„ νŠΉμ§•μœΌλ‘œ ν•˜λ©°, μ΅œμ’…μ μœΌλ‘œ λ…Έμ΄μ¦ˆκ°€ λ§Žμ€ μ‹€μ œ λ°μ΄ν„°μ…‹μ—μ„œ μž¬λ‹¨ λͺ¨λΈ 사전 ν•™μŠ΅μ˜ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹€μ œ μ„Έκ³„μ˜ λ…Έμ΄μ¦ˆκ°€ λ§Žμ€ 데이터λ₯Ό 효과적으둜 ν™œμš©ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 토큰화 방법둠을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μœ μ „μ²΄ν•™ 및 금육 λΆ„μ•Όμ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯ ν–₯상을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λŒ€κ·œλͺ¨ μž¬λ‹¨ λͺ¨λΈ ν•™μŠ΅μ— μ μš©ν•˜μ—¬ μ„±λŠ₯을 높이고 토큰 수λ₯Ό μ€„μ΄λŠ” μ„±κ³Όλ₯Ό κ±°λ‘μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 일반적인 적용 κ°€λŠ₯μ„±κ³Ό λ‹€μ–‘ν•œ λ„λ©”μΈμ—μ„œμ˜ μ„±λŠ₯ 검증이 μΆ”κ°€μ μœΌλ‘œ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘