OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization

Created by

Haebom

저자

Keane Ong, Sabri Boughorbel, Luwei Xiao, Chanakya Ekbote, Wei Dai, Ao Qu, Jingyao Wu, Rui Mao, Ehsan Hoque, Erik Cambria, Gianmarco Mengaldo, Paul Pu Liang

💡 개요

본 연구는 사회적으로 지능적인 AI 개발을 위해 개별적으로 모델링되던 다양한 인간 행동 차원을 통합적으로 처리하는 새로운 접근 방식을 제시합니다. 이 연구는 이질적인 행동 데이터 간의 학습을 효과적으로 균형 맞추는 'Heterogeneity-Aware Relative Policy Optimization(HARPO)'라는 강화학습 방법을 제안합니다. HARPO를 통해 개발된 Omnisapiens-7B 2.0은 기존 모델 대비 뛰어난 성능 향상을 보이며, 더 명확하고 견고한 추론 과정을 생성합니다.

🔑 시사점 및 한계

•

다양한 행동 차원을 통합적으로 학습하는 범용 사회 행동 처리 AI 모델의 가능성을 보여줍니다.

•

이질적인 데이터셋 간의 편향을 줄여 강화학습 모델의 일반화 성능을 향상시키는 HARPO 방법론의 유효성을 입증합니다.

•

HARPO 방법론이 향후 다양한 유형의 이질적인 강화학습 문제에 적용될 수 있는 잠재력을 가집니다.

•

HARPO가 '가장' 일관되게 강한 성능을 보인다고 주장하지만, 실제 적용 시 특정 작업이나 데이터셋에 대한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage