Sign In

OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization

Created by
  • Haebom
Category
Empty

μ €μž

Keane Ong, Sabri Boughorbel, Luwei Xiao, Chanakya Ekbote, Wei Dai, Ao Qu, Jingyao Wu, Rui Mao, Ehsan Hoque, Erik Cambria, Gianmarco Mengaldo, Paul Pu Liang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ‚¬νšŒμ μœΌλ‘œ μ§€λŠ₯적인 AI κ°œλ°œμ„ μœ„ν•΄ κ°œλ³„μ μœΌλ‘œ λͺ¨λΈλ§λ˜λ˜ λ‹€μ–‘ν•œ 인간 행동 차원을 ν†΅ν•©μ μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€. 이 μ—°κ΅¬λŠ” 이질적인 행동 데이터 κ°„μ˜ ν•™μŠ΅μ„ 효과적으둜 κ· ν˜• λ§žμΆ”λŠ” 'Heterogeneity-Aware Relative Policy Optimization(HARPO)'λΌλŠ” κ°•ν™”ν•™μŠ΅ 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. HARPOλ₯Ό 톡해 개발된 Omnisapiens-7B 2.0은 κΈ°μ‘΄ λͺ¨λΈ λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯ ν–₯상을 보이며, 더 λͺ…ν™•ν•˜κ³  κ²¬κ³ ν•œ μΆ”λ‘  과정을 μƒμ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‹€μ–‘ν•œ 행동 차원을 ν†΅ν•©μ μœΌλ‘œ ν•™μŠ΅ν•˜λŠ” λ²”μš© μ‚¬νšŒ 행동 처리 AI λͺ¨λΈμ˜ κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
이질적인 데이터셋 κ°„μ˜ 편ν–₯을 쀄여 κ°•ν™”ν•™μŠ΅ λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” HARPO λ°©λ²•λ‘ μ˜ μœ νš¨μ„±μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
HARPO 방법둠이 ν–₯ν›„ λ‹€μ–‘ν•œ μœ ν˜•μ˜ 이질적인 κ°•ν™”ν•™μŠ΅ λ¬Έμ œμ— 적용될 수 μžˆλŠ” 잠재λ ₯을 κ°€μ§‘λ‹ˆλ‹€.
β€’
HARPOκ°€ 'κ°€μž₯' μΌκ΄€λ˜κ²Œ κ°•ν•œ μ„±λŠ₯을 보인닀고 μ£Όμž₯ν•˜μ§€λ§Œ, μ‹€μ œ 적용 μ‹œ νŠΉμ • μž‘μ—…μ΄λ‚˜ 데이터셋에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘