Sign In

Social-R1: Towards Human-like Social Reasoning in LLMs

Created by
  • Haebom
Category
Empty

μ €μž

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 핡심 과제인 μ‚¬νšŒμ  μ§€λŠ₯(Social Intelligence)을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ 방법둠을 μ œμ•ˆν•œλ‹€. 이λ₯Ό μœ„ν•΄ LLM이 ν‘œλ©΄μ μΈ νŒ¨ν„΄μ΄ μ•„λ‹Œ μ§„μ •ν•œ μ‚¬νšŒμ  좔둠을 ν•  수 μžˆλ„λ‘ λ•λŠ” adversarial benchmark인 ToMBench-Hardλ₯Ό κ΅¬μΆ•ν•˜κ³ , μΈκ°„μ˜ 인지 κ³Όμ •κ³Ό μœ μ‚¬ν•˜κ²Œ 닀차원적 보상을 ν™œμš©ν•˜λŠ” κ°•ν™”ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬μΈ Social-R1을 κ°œλ°œν–ˆλ‹€. μ œμ•ˆλœ μ ‘κ·Ό 방식은 40μ–΅ 개 νŒŒλΌλ―Έν„° λͺ¨λΈλ‘œλ„ 훨씬 큰 λͺ¨λΈλ“€μ„ λŠ₯κ°€ν•˜λŠ” μ„±λŠ₯κ³Ό κ²¬κ³ ν•œ μΌλ°˜ν™” λŠ₯λ ₯을 λ³΄μ—¬μ£Όμ—ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인간과 μœ μ‚¬ν•œ μ‚¬νšŒμ  μΆ”λ‘  λŠ₯λ ₯: LLM이 μ‚¬νšŒμ  λ§₯락을 μ΄ν•΄ν•˜κ³  μ μ ˆν•˜κ²Œ λ°˜μ‘ν•˜λŠ” λŠ₯λ ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μ‹€μ§ˆμ μΈ 경둜λ₯Ό μ œμ‹œν•œλ‹€.
β€’
효율적인 ν›ˆλ ¨ 방식: 도전적인 ν›ˆλ ¨ μ˜ˆμ‹œμ™€ 전체 μΆ”λ‘  과정에 λŒ€ν•œ 지도 ν•™μŠ΅(trajectory-level alignment)이 효율적이고 μ‹ λ’°ν•  수 μžˆλŠ” μ‚¬νšŒμ  μ§€λŠ₯을 κ°–μΆ˜ AI κ°œλ°œμ— μ€‘μš”ν•¨μ„ 보여쀀닀.
β€’
벀치마크 및 ν”„λ ˆμž„μ›Œν¬μ˜ ν™•μž₯μ„±: μ œμ•ˆλœ ToMBench-Hard λ²€μΉ˜λ§ˆν¬μ™€ Social-R1 ν”„λ ˆμž„μ›Œν¬λŠ” λ‹€μ–‘ν•œ LLM에 μ μš©λ˜μ–΄ μ‚¬νšŒμ  μΆ”λ‘  λŠ₯λ ₯을 κ°œμ„ ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆλ‹€.
β€’
ν•œκ³„μ : ν˜„μž¬ μ—°κ΅¬λŠ” 주둜 ν…μŠ€νŠΈ 기반의 μ‚¬νšŒμ  좔둠에 μ΄ˆμ μ„ λ§žμΆ”κ³  있으며, μ‹€μ œ 인간 μƒν˜Έμž‘μš©μ—μ„œ λ‚˜νƒ€λ‚˜λŠ” 비언어적 μ‹ ν˜Έλ‚˜ λ³΅μž‘ν•œ 감정적 λ‰˜μ•™μŠ€λ₯Ό μ™„μ „νžˆ ν¬μ°©ν•˜μ§€ λͺ»ν•  수 μžˆλ‹€. λ˜ν•œ, μ œμ•ˆλœ 보상 μ²΄κ³„μ˜ λ³΅μž‘μ„±μ΄ μ‹€μ œ μ μš©μ— μžˆμ–΄ κ΅¬ν˜„μ˜ 어렀움을 μ•ΌκΈ°ν•  수 μžˆλ‹€.
πŸ‘