haebom
Sign In
Optimizing Language Models for Crosslingual Knowledge Consistency
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Tianyu Liu, Jirui Qi, Mrinmaya Sachan, Ryan Cotterell, Raquel Fern
andez, Arianna Bisazza
π‘ κ°μ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λ€κ΅μ΄ νκ²½μμ μ§λ¬Έμ λν΄ μΌκ΄μ± μλ λ΅λ³μ μμ±νλ κ²½ν₯μ΄ μμ΄ μ λ’°λλ₯Ό μ νμν΅λλ€. λ³Έ μ°κ΅¬λ κ°ν νμ΅κ³Ό ꡬ쑰νλ 보μ ν¨μλ₯Ό νμ©νμ¬ μ΄λ¬ν λ¬Έμ λ₯Ό μννκ³ , LLM μ체μμ νμλ DPO(Direct Preference Optimization)μμ μκ°μ λ°μ Direct Consistency Optimization (DCO) λ°©λ²μ μ μν©λλ€. DCOλ λͺ μμ μΈ λ³΄μ λͺ¨λΈ μμ΄λ λ€κ΅μ΄ LLMμ κ΅μ°¨ μΈμ΄ μΌκ΄μ±μ ν¬κ² ν₯μμν€λ©°, κΈ°μ‘΄ λ°©λ²λ‘ μ λ₯κ°νλ μ±κ³Όλ₯Ό 보μ λλ€.
π μμ¬μ λ° νκ³
β’
λ€κ΅μ΄ LLMμμ λ°μνλ κ΅μ°¨ μΈμ΄ μ§μμ λΆμΌμΉ λ¬Έμ λ₯Ό ν¨κ³Όμ μΌλ‘ ν΄κ²°ν μ μλ μλ‘μ΄ νμ΅ λ°©λ²λ‘ (DCO)μ μ μν©λλ€.
β’
DCOλ λ³λμ 보μ λͺ¨λΈ μμ΄ LLM μ체μ μΆλ ₯μ νμ©νμ¬ νμ΅ ν¨μ¨μ±μ λμ΄κ³ , κΈ°μ‘΄ DPO λ°©λ²λ‘ κ³Όλ μλμ§λ₯Ό λΌ μ μμ΅λλ€.
β’
νΉμ μΈμ΄ μμ λν νμ΅ λ°μ΄ν°κ° λΆμ‘±νκ±°λ, λ€μν λλ©μΈμ κ±ΈμΉ μΌλ°ν μ±λ₯ ν₯μμ κΈ°μ¬ν μ μμ΅λλ€.
β’
DCOμ μ±λ₯μ νμ΅ λ°μ΄ν°μ νμ§ λ° λΆν¬μ μν₯μ λ°μ μ μμΌλ©°, λ 볡μ‘νκ±°λ λ―Έλ¬ν μ§μ μΌκ΄μ± λ¬Έμ λ₯Ό λ€λ£¨κΈ° μν μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage