haebom
Sign In
From SGD to Muon: Adaptive Optimization via Schatten-p Norms
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Thomas Massena (IRIT, DTIPG - SNCF, UT3), Corentin Friedrich (IRIT), Mathieu Serrurier (IRIT)
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ₯λ¬λ λͺ¨λΈ νμ΅ μ μ΅μ ν λ°©λ²λ‘ μ κ³ μ λ κΈ°ννμ μ μ½μ 극볡νκ³ μ ν©λλ€. λ°μ΄ν° λ° κ·ΈλλμΈνΈ ν΅κ³λ₯Ό νμ©νμ¬ κ° μ κ²½λ§ λ μ΄μ΄λ³λ‘ μ΅μ μ μ λ°μ΄νΈ κΈ°ννμ λμ μΌλ‘ μ ννλ ν¨μ¨μ μΈ λ°©λ²μ μ μν©λλ€. μ΄λ₯Ό ν΅ν΄ SGDλΆν° MuonκΉμ§ λ€μν μ΅μ ν λ°©λ²μ μμ°λ₯΄λ νλ μμν¬λ₯Ό ꡬμΆνκ³ , μ€ν κ²°κ³Ό κΈ°μ‘΄ μ΅μ ν λ°©λ²λ‘ λλΉ μ°μν μ±λ₯μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
λ°νμ λ°μ΄ν°λ₯Ό κΈ°λ°μΌλ‘ μ΅μ ν λ°©λ²μ κΈ°ννμ μ μ½μ λμ μΌλ‘ μ‘°μ νλ μλ‘μ΄ μ κ·Ό λ°©μμ κ°λ₯μ±μ μ μν©λλ€.
β’
SGD, Muon, Adam, MuAdam λ± λ€μν κΈ°μ‘΄ μ΅μ ν κΈ°λ²μ ν¬κ΄νλ ν΅ν© νλ μμν¬λ₯Ό μ 곡ν©λλ€.
β’
μ μλ λμ μ΅μ ν κΈ°λ²μ΄ μ€μ λ₯λ¬λ νμ΅μμ ν¨μ¨μ μ΄λ©° μ±λ₯ ν₯μμ κΈ°μ¬ν¨μ μ€νμ μΌλ‘ 보μ¬μ€λλ€.
β’
ν₯ν μ°κ΅¬μμλ λ κ΄λ²μν λͺ¨λΈ λ° νμ€ν¬μ λν κ²μ¦κ³Ό μ μλ λ°©λ²λ‘ μ μ΄λ‘ μ κΈ°λ°μ λμ± κ³΅κ³ ν ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage