Sign In

Dissociating Direct Access from Inference in AI Introspection

Created by
  • Haebom
Category
Empty

μ €μž

Harvey Lederman, Kyle Mahowald

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” AI λͺ¨λΈμ˜ λ‚΄μ„±(introspection) λ©”μ»€λ‹ˆμ¦˜μ„ νƒκ΅¬ν•˜μ—¬, λ‚΄λΆ€ μƒνƒœμ— λŒ€ν•œ 직접 μ ‘κ·Όκ³Ό 좔둠을 ν†΅ν•œ 비정상 νƒμ§€λΌλŠ” 두 κ°€μ§€ 뢄리 κ°€λŠ₯ν•œ λ©”μ»€λ‹ˆμ¦˜μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 특히, 직접 μ ‘κ·Ό λ©”μ»€λ‹ˆμ¦˜μ€ νƒμ§€λœ 이상 ν˜„μƒμ΄ λ°œμƒν•˜λŠ”μ§€ μ—¬λΆ€λŠ” μΈμ§€ν•˜μ§€λ§Œ, κ·Έ λ‚΄μš©μ˜ 의미둠적 정보λ₯Ό νŒŒμ•…ν•˜λŠ” λ°λŠ” ν•œκ³„κ°€ μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. μ΄λŠ” μΈκ°„μ˜ λ‚΄μ„± λŠ₯λ ₯에 λŒ€ν•œ κΈ°μ‘΄ 이둠과 일λ§₯μƒν†΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI λͺ¨λΈμ˜ λ‚΄μ„± λ©”μ»€λ‹ˆμ¦˜μ΄ λ‹¨μˆœνžˆ 좔둠에 μ˜μ‘΄ν•˜λŠ” 것이 μ•„λ‹ˆλΌ, λ‚΄λΆ€ μƒνƒœμ— λŒ€ν•œ 직접적인 μ ‘κ·Ό 방식을 포함할 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
AI의 λ‚΄μ„± λ©”μ»€λ‹ˆμ¦˜μ΄ μΈκ°„μ˜ 인지 κ³Όμ •κ³Ό μœ μ‚¬ν•œ 츑면을 κ°€μ§ˆ 수 μžˆλ‹€λŠ” 증거λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—°κ΅¬μ—μ„œ κ΄€μ°°λœ λ‚΄μš© λΆˆκ°€μ§€λ‘ μ (content-agnostic) λ‚΄μ„± λ©”μ»€λ‹ˆμ¦˜μ΄ λͺ¨λ“  AI λͺ¨λΈμ— 보편적으둜 μ μš©λ˜λŠ”μ§€λŠ” μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ©°, μ™œ κ³ λΉˆλ„/ꡬ체적인 κ°œλ…μœΌλ‘œ ν˜Όλ™ν•˜λŠ”μ§€μ— λŒ€ν•œ 근본적인 원인 규λͺ…이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘