Sign In

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Created by
  • Haebom
Category
Empty

μ €μž

Ajay Pravin Mahale

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λ‚΄λΆ€ μž‘λ™ λ©”μ»€λ‹ˆμ¦˜μ„ μ΄ν•΄ν•˜κ³  이λ₯Ό 인간이 이해할 수 μžˆλŠ” μžμ—°μ–΄ μ„€λͺ…μœΌλ‘œ μ—°κ²°ν•˜λŠ” νŒŒμ΄ν”„λΌμΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. ν™œμ„±ν™” νŒ¨μΉ­μ„ 톡해 인과적으둜 μ€‘μš”ν•œ μ–΄ν…μ…˜ ν—€λ“œλ₯Ό μ‹λ³„ν•˜κ³ , ν…œν”Œλ¦Ώ 기반 및 LLM 기반 방법을 μ‚¬μš©ν•˜μ—¬ μ„€λͺ…을 μƒμ„±ν•˜λ©°, ERASER μŠ€νƒ€μΌ μ§€ν‘œλ‘œ μ„€λͺ…μ˜ 좩싀도λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€. GPT-2 Small λͺ¨λΈμ˜ κ°„μ ‘ λͺ©μ μ–΄ 식별(IOI) μž‘μ—…μ— λŒ€ν•œ μ‹€ν—˜μ—μ„œ, μ œμ•ˆλœ νŒŒμ΄ν”„λΌμΈμ€ λͺ¨λΈμ˜ λ‘œμ§“ 차이에 61.4%λ₯Ό μ„€λͺ…ν•˜λŠ” 6개의 μ–΄ν…μ…˜ ν—€λ“œλ₯Ό μ‹λ³„ν•˜μ˜€κ³ , μ„€λͺ…μ˜ 좩싀도λ₯Ό ν‰κ°€ν•˜λŠ” 데 μœ μš©ν•œ μ§€ν‘œλ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
기계적 ν•΄μ„ν•™μ˜ 회둜 μˆ˜μ€€ 뢄석 κ²°κ³Όλ₯Ό 인간이 이해 κ°€λŠ₯ν•œ μžμ—°μ–΄ μ„€λͺ…μœΌλ‘œ 효과적으둜 λ³€ν™˜ν•˜λŠ” 방법둠을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
LLM 기반 μ„€λͺ… 생성이 ν…œν”Œλ¦Ώ 기반 방식보닀 μš°μˆ˜ν•¨μ„ μž…μ¦ν–ˆμœΌλ©°, μ„€λͺ… 좩싀도와 λͺ¨λΈ 자체 확신도 κ°„μ˜ 상관관계가 μ—†μŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ„€λͺ…μ˜ 좩싀도λ₯Ό ν‰κ°€ν•˜λŠ” 데 μžˆμ–΄ μ™„λ²½ν•œ 포괄성을 λ‹¬μ„±ν•˜μ§€ λͺ»ν–ˆμœΌλ©°, λΆ„μ‚°λœ λ°±μ—… λ©”μ»€λ‹ˆμ¦˜μ˜ 쑴재λ₯Ό μ‹œμ‚¬ν•©λ‹ˆλ‹€. λ˜ν•œ, μ„€λͺ…이 λ©”μ»€λ‹ˆμ¦˜μ—μ„œ λ²—μ–΄λ‚˜λŠ” μ‹€νŒ¨ λ²”μ£Όλ₯Ό μ‹λ³„ν–ˆμŠ΅λ‹ˆλ‹€.
πŸ‘