haebom
Sign In
Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Siddharth Boppana, Annabel Ma, Max Loeffler, Raphael Sarfati, Eric Bigelow, Atticus Geiger, Owen Lewis, Jack Merullo
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ΄ μΆλ‘ κ³Όμ μμ μ€μ μ λ κ³Όλ λ³κ°λ‘ μ΅μ’ λ΅λ³μ λν νμ μ 보μ΄λ "μνμ μ°μ μ¬κ³ (performative chain-of-thought)" νμμ λ°κ²¬νμ΅λλ€. νμ±ν νμ, μ‘°κΈ° κ°μ λ΅λ³, CoT λͺ¨λν° λΉκ΅ λΆμ κ²°κ³Ό, νΉν μ¬μ΄ μ§λ¬Έμ κ²½μ° λͺ¨λΈμ μ΅μ’ λ΅λ³μ CoT μμ± μ΄λ°λΆν° ν΄μ κ°λ₯νμ§λ§, λͺ¨λν°λ μ΄λ₯Ό νμ νμ§ λͺ»νλ κ²μΌλ‘ λνλ¬μ΅λλ€. μ΄λ μ€μ μΆλ‘ κ³Όμ κ³Ό μνμ μ°μ μ¬κ³ λ₯Ό ꡬλΆν μ μλ κ°λ₯μ±μ μ μνλ©°, νμ±ν νμμ΄ μνμ μΆλ‘ κ°μ§ λ° μ μν μ»΄ν¨ν μ μν ν¨μ¨μ μΈ λꡬμμ μμ¬ν©λλ€.
π μμ¬μ λ° νκ³
β’
μΈμ΄ λͺ¨λΈμ μΆλ‘ κ³Όμ μμ λνλλ "μνμ μ°μ μ¬κ³ " νμμ μ΅μ΄λ‘ κ·λͺ νκ³ , μ€μ μ λ κ³Ό μνμ νλμ ꡬλΆν μ μλ λ°©λ²λ‘ μ μ μνμ΅λλ€.
β’
νμ±ν νμ(activation probing) κΈ°λ²μ΄ λͺ¨λΈμ μ€μ μ λ λ³νλ₯Ό ν¨κ³Όμ μΌλ‘ κ°μ§νμ¬, μΆλ‘ κ³Όμ μ μ΅μ ννκ³ λΆνμν ν ν° μμ±μ μ€μ΄λ λ° κΈ°μ¬ν μ μμμ 보μ¬μ£Όμμ΅λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ νμ±ν νμ κΈ°λ° μ‘°κΈ° μ’ λ£ λ°©μμ MMLUμμλ μ΅λ 80%, GPQA-Diamondμμλ 30%μ ν ν° κ°μ ν¨κ³Όμ ν¨κ» μ νλλ₯Ό μ μ§νμ§λ§, 볡μ‘ν λ€λ¨κ³ μΆλ‘ μ΄λ λ€μν μ νμ μΈμ΄ λͺ¨λΈμ λν μΌλ°ν κ°λ₯μ± λ° μ μ© λ²μλ₯Ό λ νμ₯νλ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage