Sign In

Automated alignment is harder than you think

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Aleksandr Bowkis, Marie Davidsen Buhl, Jacob Pfau, Geoffrey Irving

πŸ’‘ κ°œμš”

λ³Έ 논문은 인곡 μ΄ˆμ§€λŠ₯(ASI)의 μ•ˆμ „μ„± 확보λ₯Ό μœ„ν•΄ AI μ—μ΄μ „νŠΈλ₯Ό ν™œμš©ν•œ μžλ™ν™”λœ μ •λ ¬ 연ꡬ 방식에 잠재된 μœ„ν—˜μ„±μ„ μ§€μ ν•©λ‹ˆλ‹€. λͺ…ν™•ν•œ 평가 기쀀이 μ—†λŠ” '퍼지(fuzzy)' μž‘μ—…λ“€μ€ μΈκ°„μ˜ νŒλ‹¨λ§ŒμœΌλ‘œλŠ” 였λ₯˜λ₯Ό μž‘μ•„λ‚΄κΈ° μ–΄λ ΅κΈ° λ•Œλ¬Έμ—, μžλ™ν™”λœ 연ꡬ κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” λ―Έμ„Έν•œ 였λ₯˜λ“€μ΄ νƒμ§€λ˜μ§€ μ•Šκ³  치λͺ…적인 였판으둜 μ΄μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. 심지어 μ˜¬λ°”λ₯Έ κ²°κ³Όμ‘°μ°¨ κ³Όλ„ν•œ μ‹ λ’°λ‘œ 잘λͺ» μ’…ν•©λ˜μ–΄ 잘λͺ» μ •λ ¬λœ AI의 μ˜λ„μΉ˜ μ•Šμ€ 배포λ₯Ό μ΄ˆλž˜ν•  수 μžˆλ‹€κ³  μ£Όμž₯ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μžλ™ν™”λœ μ •λ ¬ μ—°κ΅¬λŠ” μ΅œμ ν™” μ••λ ₯, 인간과 λ‹€λ₯Έ 였λ₯˜ μœ ν˜•, 인간이 ν‰κ°€ν•˜κΈ° μ–΄λ €μš΄ 논리 μ „κ°œ, 그리고 AI 결과물의 상관관계 증폭 λ“±μœΌλ‘œ 인해 인간 주도 연ꡬ보닀 더 μ‹¬κ°ν•œ μ˜€μ§„ κ°€λŠ₯성을 λ‚΄ν¬ν•©λ‹ˆλ‹€.
β€’
AI μ—μ΄μ „νŠΈκ°€ '퍼지' μž‘μ—…λ“€μ„ μ‹ λ’°μ„± 있게 μˆ˜ν–‰ν•˜λ„λ‘ ν›ˆλ ¨μ‹œν‚€λŠ” 것이 ν•„μˆ˜μ μ΄μ§€λ§Œ, 이에 λŒ€ν•œ μΌλ°˜ν™” 및 ν™•μž₯ κ°€λŠ₯ν•œ 감독(scalable oversight) 접근법 λ˜ν•œ μƒˆλ‘œμš΄ 도전 κ³Όμ œμ— μ§λ©΄ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μžλ™ν™”λœ μ •λ ¬ 방식이 μ΄ˆλž˜ν•  수 μžˆλŠ” 'κ²‰λ³΄κΈ°μ—λŠ” κ·ΈλŸ΄λ“―ν•˜μ§€λ§Œ 치λͺ…μ μœΌλ‘œ μ˜€ν•΄μ˜ μ†Œμ§€κ°€ μžˆλŠ” μ•ˆμ „μ„± 평가'λΌλŠ” ꡬ체적인 μœ„ν—˜ μ‹œλ‚˜λ¦¬μ˜€λ₯Ό μ œμ‹œν•˜λ©°, 이에 λŒ€ν•œ 심도 κΉŠμ€ λ…Όμ˜λ₯Ό μ΄‰κ΅¬ν•©λ‹ˆλ‹€.
πŸ‘