Sign In

Tracking Capabilities for Safer Agents

Created by
  • Haebom
Category
Empty

μ €μž

Martin Odersky, Yaoyu Zhao, Yichen Xu, Oliver Bra\v{c}evac, Cao Nguyen Pham

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν˜„μ‹€ 세계와 도ꡬ ν˜ΈμΆœμ„ 톡해 μƒν˜Έμž‘μš©ν•˜λŠ” AI μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄ 기반의 "μ•ˆμ „ ν•˜λ„€μŠ€"λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 μ—μ΄μ „νŠΈκ°€ 도ꡬλ₯Ό 직접 ν˜ΈμΆœν•˜λŠ” λŒ€μ‹ , Scala 3의 캑처 체크 κΈ°λŠ₯κ³Ό ν•¨κ»˜ λŠ₯λ ₯(capabilities)μ΄λΌλŠ” ν”„λ‘œκ·Έλž¨ λ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ 관심 효과 및 λ¦¬μ†ŒμŠ€μ— λŒ€ν•œ 접근을 μ œμ–΄ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ˜λ„λ₯Ό μ½”λ“œν™”ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 정적 νƒ€μž… μ‹œμŠ€ν…œμ΄ μ—μ΄μ „νŠΈκ°€ μˆ˜ν–‰ν•  수 μžˆλŠ” μž‘μ—…μ„ μ„Έλ°€ν•˜κ²Œ μ œμ–΄ν•˜μ—¬ 정보 μœ μΆœμ΄λ‚˜ μ˜λ„ν•˜μ§€ μ•Šμ€ λΆ€μž‘μš©κ³Ό 같은 μ•ˆμ „ν•˜μ§€ μ•Šμ€ 행동을 λ°©μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ„ κ°•ν™”ν•˜κΈ° μœ„ν•΄ ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄μ˜ κ°•λ ₯ν•œ νƒ€μž… μ‹œμŠ€ν…œκ³Ό λŠ₯λ ₯(capability) κ°œλ…μ„ ν™œμš©ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
κ΅­μ†Œμ  μˆœμˆ˜μ„±(local purity)을 κ°•μ œν•˜μ—¬ λ―Όκ°ν•œ 데이터λ₯Ό μ²˜λ¦¬ν•  λ•Œ 정보 μœ μΆœμ„ λ°©μ§€ν•˜λŠ” λ“± ꡬ체적인 μ•ˆμ „μ„± λ©”μ»€λ‹ˆμ¦˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν™•μž₯ κ°€λŠ₯ν•œ μ—μ΄μ „νŠΈ μ•ˆμ „ ν•˜λ„€μŠ€λ₯Ό ꡬ좕할 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•˜λ©°, μž‘μ—… μ„±λŠ₯ μ €ν•˜ 없이 μ•ˆμ „μ„±μ„ 확보할 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ•ˆμ „ ν•˜λ„€μŠ€μ˜ μ‹€μ œ 적용 κ°€λŠ₯μ„± 및 λ³΅μž‘ν•œ μ—μ΄μ „νŠΈ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘