Sign In

Containment Verification: AI Safety Guarantees Independent of Alignment

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Royce Moon, Lav R. Varshney

πŸ’‘ κ°œμš”

λ³Έ 논문은 AI μ—μ΄μ „νŠΈκ°€ 세상과 μƒν˜Έμž‘μš©ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄ 계측인 μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬ μžμ²΄μ— μ•ˆμ „ 보μž₯을 λ‘λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식인 "containment verification"을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방법둠이 ν•™μŠ΅λœ ν–‰λ™μ˜ 검증 λΆˆκ°€λŠ₯ν•œ 속성에 μ˜μ‘΄ν•˜λŠ” λͺ¨λΈ κ°œμž… λ°©μ‹κ³ΌλŠ” 달리, 이 방법은 μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬ λ‚΄μ—μ„œ λͺ¨λ“  κ°€λŠ₯ν•œ AI 좜λ ₯에 λŒ€ν•΄ 경계 정책을 κ°•μ œν•¨μœΌλ‘œμ¨ 보편적인 μ•ˆμ „ 보μž₯을 μ œκ³΅ν•©λ‹ˆλ‹€. 특히, 이λ₯Ό 톡해 λͺ¨λΈ λŠ₯λ ₯κ³Ό λ¬΄κ΄€ν•œ μ•ˆμ „ 보μž₯을 졜초둜 μ—°μ—­μ μœΌλ‘œ ν˜•μ‹ κ²€μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI μ•ˆμ „ 보μž₯이 ν•™μŠ΅λœ λͺ¨λΈμ˜ λΆˆν™•μ‹€ν•œ 행동에 μ˜μ‘΄ν•˜μ§€ μ•Šκ³ , μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬μ˜ ꡬ쑰 μžμ²΄μ— μ˜ν•΄ 보μž₯될 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λͺ¨λΈμ˜ λ³΅μž‘μ„±μ΄λ‚˜ λŠ₯λ ₯ 변화에 독립적인 보편적인 μ•ˆμ „ 보μž₯을 μ—°μ—­μ μœΌλ‘œ 증λͺ…ν•˜κ³  μžλ™ν™”ν•  수 μžˆλŠ” 틀을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
"havoc oracle" λͺ¨λΈλ§ 및 "boundary-enforceable properties"의 ν‘œν˜„λ ₯이 λͺ¨λ“  μ’…λ₯˜μ˜ AI μ•ˆμ „ 문제λ₯Ό 닀루기에 μΆ©λΆ„ν•œμ§€μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ©°, μ‹€μ œ λ³΅μž‘ν•œ μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬μ— λŒ€ν•œ 적용 및 ν™•μž₯ κ°€λŠ₯성이 νƒκ΅¬λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€.
πŸ‘