haebom
Sign In
Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization
Created by
Haebom
Category
Empty
μ μ
Arvid E. Gollwitzer, Paridhi Latawa, David de Gruijl, Deepak A. Subramanian, Adri
an Noriega de la Colina
π‘ κ°μ
κΈ°μ‘΄μ ν ν°ν λ°©λ²λ‘ μ λ°μ΄ν° μ νΈμ νμ§μ κ³ λ €νμ§ μμ μ€μ μΈκ³μ λ Έμ΄μ¦κ° λ§μ λ°μ΄ν°μ μμμ ν¨κ³Όκ° μ νμ μ΄μμ΅λλ€. λ³Έ λ Όλ¬Έμ λ°μ΄ν°μ μ λ’°μ±μ μ΄ν ꡬμΆμ μ§μ ν΅ν©νλ QA-Token(Quality-Aware Tokenization) λ°©λ²μ μ μν©λλ€. μ΄ λ°©λ²μ λ€μ΄μ€νΈλ¦Ό μ±λ₯κ³Ό μ΄ν ꡬμΆμ λμμ μ΅μ ννλ μ΄μ€ μ΅μ ν λ¬Έμ μ νμ§ μΈμ 보μμ ν΅ν κ°ν νμ΅ κΈ°λ°μ μ΄ν νμ΅μ νΉμ§μΌλ‘ νλ©°, μ΅μ’ μ μΌλ‘ λ Έμ΄μ¦κ° λ§μ μ€μ λ°μ΄ν°μ μμ μ¬λ¨ λͺ¨λΈ μ¬μ νμ΅μ μ±λ₯μ ν¬κ² ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
μ€μ μΈκ³μ λ Έμ΄μ¦κ° λ§μ λ°μ΄ν°λ₯Ό ν¨κ³Όμ μΌλ‘ νμ©ν μ μλ μλ‘μ΄ ν ν°ν λ°©λ²λ‘ μ μ μνμ΅λλ€.
β’
μ μ 체ν λ° κΈμ΅ λΆμΌμμ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ μ°μν μ±λ₯ ν₯μμ μ μ¦νμ΅λλ€.
β’
λκ·λͺ¨ μ¬λ¨ λͺ¨λΈ νμ΅μ μ μ©νμ¬ μ±λ₯μ λμ΄κ³ ν ν° μλ₯Ό μ€μ΄λ μ±κ³Όλ₯Ό κ±°λμμ΅λλ€.
β’
(νκ³μ λλ ν₯ν κ³Όμ ) μ μλ λ°©λ²λ‘ μ μΌλ°μ μΈ μ μ© κ°λ₯μ±κ³Ό λ€μν λλ©μΈμμμ μ±λ₯ κ²μ¦μ΄ μΆκ°μ μΌλ‘ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage