Sign In

Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

Created by
  • Haebom
Category
Empty

μ €μž

Kyle Cox, Darius Kianersi, Adria Garriga-Alonso

πŸ’‘ κ°œμš”

이 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 해석 κ°€λŠ₯성을 λ†’μ΄λŠ” 데 μ€‘μš”ν•œ 역할을 ν•˜λŠ” Chain-of-Thought(CoT) 좔둠이 μ‹€μ œ λͺ¨λΈμ˜ μ˜μ‚¬ κ²°μ • 과정을 μ–Όλ§ˆλ‚˜ μΆ©μ‹€νžˆ λ°˜μ˜ν•˜λŠ”μ§€μ— λŒ€ν•œ μ˜λ¬Έμ„ μ œκΈ°ν•©λ‹ˆλ‹€. 연ꡬ진은 CoT 생성 이전에 이미 λͺ¨λΈμ΄ 닡을 κ²°μ •ν•œλ‹€λŠ” 증거λ₯Ό μ œμ‹œν•˜λ©°, 이λ₯Ό λ’·λ°›μΉ¨ν•˜κΈ° μœ„ν•΄ λ§ˆμ§€λ§‰ 토큰 μ΄μ „μ˜ ν™œμ„±ν™” 값을 ν•™μŠ΅μ‹œν‚¨ μ„ ν˜• 탐침(linear probe)으둜 λŒ€λΆ€λΆ„μ˜ μž‘μ—…μ—μ„œ 0.9 AUC둜 μ΅œμ’… 닡을 μ˜ˆμΈ‘ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. 더 λ‚˜μ•„κ°€, 탐침 λ°©ν–₯으둜 ν™œμ„±ν™”λ₯Ό μ‘°μ’…ν•˜λ©΄ 50% μ΄μƒμ˜ κ²½μš°μ—μ„œ λͺ¨λΈμ˜ 닡이 λ°”λ€ŒλŠ” 인과 관계λ₯Ό ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
CoTλŠ” LLM의 해석 κ°€λŠ₯성을 μœ„ν•œ μœ μš©ν•œ 도ꡬ일 수 μžˆμœΌλ‚˜, λͺ¨λΈμ΄ 닡을 κ²°μ •ν•œ 후에 CoTλ₯Ό μƒμ„±ν•˜λŠ” κ²½μš°κ°€ λ§ŽμœΌλ―€λ‘œ CoT의 μΆ”λ‘  과정이 항상 λͺ¨λΈμ˜ μ‹€μ œ μ˜μ‚¬ κ²°μ • 과정을 λ°˜μ˜ν•˜λŠ” 것은 μ•„λ‹™λ‹ˆλ‹€.
β€’
CoT 생성 μ΄μ „μ˜ ν™œμ„±ν™” 값을 μ‘°μž‘ν•¨μœΌλ‘œμ¨ λͺ¨λΈμ˜ 닡을 λ³€κ²½ν•  수 μžˆλ‹€λŠ” 점은 CoTκ°€ λ‹¨μˆœνžˆ 사후적인 μ„€λͺ…이 μ•„λ‹ˆλΌ λͺ¨λΈμ˜ μ˜μ‚¬ κ²°μ • 과정에 영ν–₯을 쀄 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
CoT 생성 이전에 잘λͺ»λœ 신념을 κ°€μ§€κ³  μžˆμ„ λ•Œ, 이λ₯Ό κ΅μ •ν•˜μ§€ μ•Šκ³  CoTλ₯Ό μƒμ„±ν•˜λŠ” 경우 "비함좕(non-entailment)" λ˜λŠ” "ν™˜κ°(confabulation)"κ³Ό 같은 λ°”λžŒμ§ν•˜μ§€ μ•Šμ€ 결과둜 μ΄μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘