Sign In

Epistemic Observability in Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Tony Mason, Vaastav Anand

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ–Έμ–΄ λͺ¨λΈμ΄ κ°€μž₯ 확신에 μ°¬ 닡변을 ν•  λ•Œ 였히렀 사싀을 μ™œκ³‘ν•˜λŠ” κ²½ν–₯이 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. ν…μŠ€νŠΈλ§ŒμœΌλ‘œλŠ” λͺ¨λΈμ˜ μ •μ§ν•œ 응닡과 κ·ΈλŸ΄λ“―ν•œ κ±°μ§“ 응닡을 ꡬ별할 수 μ—†λ‹€λŠ” μˆ˜ν•™μ  증λͺ…을 톡해, 기쑴의 ν…μŠ€νŠΈ 기반 λͺ¨λ‹ˆν„°λ§ λ°©μ‹μœΌλ‘œλŠ” ν•œκ³„κ°€ μžˆμŒμ„ λ°ν˜”μŠ΅λ‹ˆλ‹€. 이λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ 토큰별 μ—”νŠΈλ‘œν”Όμ™€ 같은 계산 뢀산물을 ν™œμš©ν•˜λŠ” μƒˆλ‘œμš΄ μΈν„°νŽ˜μ΄μŠ€λ₯Ό μ œμ•ˆν•˜μ—¬, λͺ¨λΈμ˜ 정확성을 μ‹ λ’°μ„± 있게 νŒŒμ•…ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ–Έμ–΄ λͺ¨λΈμ˜ 자기 보고 신뒰도가 였히렀 정확도와 λ°˜λΉ„λ‘€ν•˜λŠ” ν˜„μƒμ΄ λ³΄νŽΈμ μž„μ„ 보여주어, λͺ¨λΈμ˜ 신뒰성에 λŒ€ν•œ 근본적인 μ˜λ¬Έμ„ μ œκΈ°ν•©λ‹ˆλ‹€.
β€’
ν…μŠ€νŠΈλ§ŒμœΌλ‘œλŠ” λͺ¨λΈμ˜ 거짓말을 νƒμ§€ν•˜λŠ” 것이 λΆˆκ°€λŠ₯함을 μˆ˜ν•™μ μœΌλ‘œ 증λͺ…ν•¨μœΌλ‘œμ¨, ν˜„μž¬μ˜ μ–Έμ–΄ λͺ¨λΈ 평가 및 λͺ¨λ‹ˆν„°λ§ λ°©μ‹μ˜ ν•œκ³„λ₯Ό λͺ…ν™•νžˆ ν•©λ‹ˆλ‹€.
β€’
토큰별 μ—”νŠΈλ‘œν”Όμ™€ 같은 λ‚΄λΆ€ 계산 정보λ₯Ό ν™œμš©ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식이 κΈ°μ‘΄ ν…μŠ€νŠΈ 기반 방법보닀 μ›”λ“±νžˆ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μž„μ„ μž…μ¦ν•˜μ—¬, ν–₯ν›„ μ–Έμ–΄ λͺ¨λΈμ˜ μ‹ λ’°μ„± 확보λ₯Ό μœ„ν•œ μ‹€μ§ˆμ μΈ 해결책을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œν•˜λŠ” 해결책은 'λΉ„μš© ν‘œλ©΄(cost surface)'μ΄λΌλŠ” λͺ¨λΈ κ΅¬μΆ•μžλ₯Ό μœ„ν•œ μ‹€μš©μ μΈ κ°€μ΄λ“œλΌμΈμ„ μ œκ³΅ν•˜μ§€λ§Œ, μ΄λŠ” μ–Έμ–΄ λͺ¨λΈ 자체의 근본적인 'κΈ°λŠ₯적' ν•œκ³„λ₯Ό ν•΄κ²°ν•˜λŠ” 것이 μ•„λ‹ˆλΌ 'κ΄€μ°°'의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμΆ”κ³  μžˆμŠ΅λ‹ˆλ‹€. 즉, μ–Έμ–΄ λͺ¨λΈμ΄ 슀슀둜 진싀을 λ§ν•˜λ„λ‘ λ§Œλ“œλŠ” 것이 μ•„λ‹ˆλΌ, 진싀을 λ§ν•˜λŠ”μ§€ μ•„λ‹Œμ§€λ₯Ό 더 잘 '인지'ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€.
πŸ‘