haebom
Sign In
Social-R1: Towards Human-like Social Reasoning in LLMs
Created by
Haebom
Category
Empty
μ μ
Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ ν΅μ¬ κ³Όμ μΈ μ¬νμ μ§λ₯(Social Intelligence)μ ν₯μμν€κΈ° μν λ°©λ²λ‘ μ μ μνλ€. μ΄λ₯Ό μν΄ LLMμ΄ νλ©΄μ μΈ ν¨ν΄μ΄ μλ μ§μ ν μ¬νμ μΆλ‘ μ ν μ μλλ‘ λλ adversarial benchmarkμΈ ToMBench-Hardλ₯Ό ꡬμΆνκ³ , μΈκ°μ μΈμ§ κ³Όμ κ³Ό μ μ¬νκ² λ€μ°¨μμ 보μμ νμ©νλ κ°ννμ΅ νλ μμν¬μΈ Social-R1μ κ°λ°νλ€. μ μλ μ κ·Ό λ°©μμ 40μ΅ κ° νλΌλ―Έν° λͺ¨λΈλ‘λ ν¨μ¬ ν° λͺ¨λΈλ€μ λ₯κ°νλ μ±λ₯κ³Ό κ²¬κ³ ν μΌλ°ν λ₯λ ₯μ 보μ¬μ£Όμλ€.
π μμ¬μ λ° νκ³
β’
μΈκ°κ³Ό μ μ¬ν μ¬νμ μΆλ‘ λ₯λ ₯:
LLMμ΄ μ¬νμ λ§₯λ½μ μ΄ν΄νκ³ μ μ νκ² λ°μνλ λ₯λ ₯μ ν₯μμν¬ μ μλ μ€μ§μ μΈ κ²½λ‘λ₯Ό μ μνλ€.
β’
ν¨μ¨μ μΈ νλ ¨ λ°©μ:
λμ μ μΈ νλ ¨ μμμ μ 체 μΆλ‘ κ³Όμ μ λν μ§λ νμ΅(trajectory-level alignment)μ΄ ν¨μ¨μ μ΄κ³ μ λ’°ν μ μλ μ¬νμ μ§λ₯μ κ°μΆ AI κ°λ°μ μ€μν¨μ 보μ¬μ€λ€.
β’
λ²€μΉλ§ν¬ λ° νλ μμν¬μ νμ₯μ±:
μ μλ ToMBench-Hard λ²€μΉλ§ν¬μ Social-R1 νλ μμν¬λ λ€μν LLMμ μ μ©λμ΄ μ¬νμ μΆλ‘ λ₯λ ₯μ κ°μ νλ λ° κΈ°μ¬ν μ μλ€.
β’
νκ³μ :
νμ¬ μ°κ΅¬λ μ£Όλ‘ ν μ€νΈ κΈ°λ°μ μ¬νμ μΆλ‘ μ μ΄μ μ λ§μΆκ³ μμΌλ©°, μ€μ μΈκ° μνΈμμ©μμ λνλλ λΉμΈμ΄μ μ νΈλ 볡μ‘ν κ°μ μ λμμ€λ₯Ό μμ ν ν¬μ°©νμ§ λͺ»ν μ μλ€. λν, μ μλ 보μ 체κ³μ 볡μ‘μ±μ΄ μ€μ μ μ©μ μμ΄ κ΅¬νμ μ΄λ €μμ μΌκΈ°ν μ μλ€.
PDF 보기
Made with Slashpage