Sign In

Tracking Capabilities for Safer Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Martin Odersky, Yaoyu Zhao, Yichen Xu, Oliver Bra\v{c}evac, Cao Nguyen Pham

πŸ’‘ κ°œμš”

λ³Έ 논문은 AI μ—μ΄μ „νŠΈκ°€ μ‹€μ œ 세계와 μƒν˜Έμž‘μš©ν•˜λ©° λ°œμƒν•˜λŠ” μ•ˆμ „ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄ 기반의 "μ•ˆμ „ ν•˜λ„€μŠ€(safety harness)"λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ—μ΄μ „νŠΈκ°€ 도ꡬλ₯Ό 직접 ν˜ΈμΆœν•˜λŠ” λŒ€μ‹ , 'κΈ°λŠ₯(capabilities)'μ΄λΌλŠ” ν”„λ‘œκ·Έλž˜λ° λ³€μˆ˜λ₯Ό 톡해 도ꡬ 접근을 μ œμ–΄ν•˜κ³  μ˜λ„λ₯Ό μ½”λ“œλ‘œ ν‘œν˜„ν•˜λ©°, Scala 3의 κ°•λ ₯ν•œ νƒ€μž… μ‹œμŠ€ν…œμœΌλ‘œ 이λ₯Ό μ •μ μœΌλ‘œ μΆ”μ ν•˜μ—¬ 정보 유좜과 같은 λΆ€μž‘μš©μ„ λ°©μ§€ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆλœ 방법둠은 μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯ μ €ν•˜ 없이 μ•ˆμ „ν•œ μ½”λ“œ 생성을 보μž₯ν•˜λ©°, μ•…μ˜μ μΈ λΆ€μž‘μš©μ„ 효과적으둜 차단함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AI μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ„ κ°•ν™”ν•˜κΈ° μœ„ν•΄ ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄μ˜ νƒ€μž… μ‹œμŠ€ν…œμ„ ν™œμš©ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
'κΈ°λŠ₯(capabilities)' κ°œλ…κ³Ό νƒ€μž… 좔적을 톡해 μ—μ΄μ „νŠΈμ˜ λΆˆν•„μš”ν•˜κ±°λ‚˜ μœ„ν—˜ν•œ ν–‰μœ„λ₯Ό 사전에 λ°©μ§€ν•  수 μžˆλŠ” κ°•λ ₯ν•œ λ©”μ»€λ‹ˆμ¦˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μƒˆλ‘œμš΄ μ–Έμ–΄ κΈ°λŠ₯ 및 λ³΅μž‘ν•œ μ—μ΄μ „νŠΈ λ‘œμ§μ— λŒ€ν•œ ν™•μž₯μ„±κ³Ό μ„±λŠ₯ μ΅œμ ν™”λŠ” ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μŠ΅λ‹ˆλ‹€.
πŸ‘