haebom
Sign In
OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization
Created by
Haebom
Category
Empty
μ μ
Keane Ong, Sabri Boughorbel, Luwei Xiao, Chanakya Ekbote, Wei Dai, Ao Qu, Jingyao Wu, Rui Mao, Ehsan Hoque, Erik Cambria, Gianmarco Mengaldo, Paul Pu Liang
π‘ κ°μ
λ³Έ μ°κ΅¬λ μ¬νμ μΌλ‘ μ§λ₯μ μΈ AI κ°λ°μ μν΄ κ°λ³μ μΌλ‘ λͺ¨λΈλ§λλ λ€μν μΈκ° νλ μ°¨μμ ν΅ν©μ μΌλ‘ μ²λ¦¬νλ μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€. μ΄ μ°κ΅¬λ μ΄μ§μ μΈ νλ λ°μ΄ν° κ°μ νμ΅μ ν¨κ³Όμ μΌλ‘ κ· ν λ§μΆλ 'Heterogeneity-Aware Relative Policy Optimization(HARPO)'λΌλ κ°ννμ΅ λ°©λ²μ μ μν©λλ€. HARPOλ₯Ό ν΅ν΄ κ°λ°λ Omnisapiens-7B 2.0μ κΈ°μ‘΄ λͺ¨λΈ λλΉ λ°μ΄λ μ±λ₯ ν₯μμ 보μ΄λ©°, λ λͺ ννκ³ κ²¬κ³ ν μΆλ‘ κ³Όμ μ μμ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
λ€μν νλ μ°¨μμ ν΅ν©μ μΌλ‘ νμ΅νλ λ²μ© μ¬ν νλ μ²λ¦¬ AI λͺ¨λΈμ κ°λ₯μ±μ 보μ¬μ€λλ€.
β’
μ΄μ§μ μΈ λ°μ΄ν°μ κ°μ νΈν₯μ μ€μ¬ κ°ννμ΅ λͺ¨λΈμ μΌλ°ν μ±λ₯μ ν₯μμν€λ HARPO λ°©λ²λ‘ μ μ ν¨μ±μ μ μ¦ν©λλ€.
β’
HARPO λ°©λ²λ‘ μ΄ ν₯ν λ€μν μ νμ μ΄μ§μ μΈ κ°ννμ΅ λ¬Έμ μ μ μ©λ μ μλ μ μ¬λ ₯μ κ°μ§λλ€.
β’
HARPOκ° 'κ°μ₯' μΌκ΄λκ² κ°ν μ±λ₯μ 보μΈλ€κ³ μ£Όμ₯νμ§λ§, μ€μ μ μ© μ νΉμ μμ μ΄λ λ°μ΄ν°μ μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage