Sign In

Learning Efficient Guardrails for Compliance

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiaofei Wen, Wenjie Jacky Mo, Yanan Xie, Peng Qi, Muhao Chen

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μž₯기적인 과업을 μˆ˜ν–‰ν•˜λŠ” 자율 μ›Ή μ—μ΄μ „νŠΈμ˜ μ‹€μ œ μ •μ±… μ€€μˆ˜ λŠ₯λ ₯이 λΆ€μ‘±ν•˜λ‹€λŠ” 점을 μ§€μ ν•˜κ³ , 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 6만 건의 μ •μ±…-경둜 쌍으둜 κ΅¬μ„±λœ PolicyGuardBench 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 기반으둜 ν•™μŠ΅λœ PolicyGuard λͺ¨λΈμ€ 효율적인 μΆ”λ‘  속도λ₯Ό μœ μ§€ν•˜λ©΄μ„œλ„ 높은 탐지 정확도λ₯Ό λ‹¬μ„±ν•˜λ©°, μƒˆλ‘œμš΄ λ„λ©”μΈμ—μ„œλ„ λ›°μ–΄λ‚œ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€. μ΄λŠ” μ •μ±… μ€€μˆ˜λ₯Ό μœ„ν•œ μ •ν™•ν•˜κ³  μΌλ°˜ν™” κ°€λŠ₯ν•œ κ°€λ“œλ ˆμΌ λͺ¨λΈμ΄ μ†Œκ·œλͺ¨λ‘œλ„ κ΅¬ν˜„ κ°€λŠ₯함을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
자율 μ›Ή μ—μ΄μ „νŠΈμ˜ μ •μ±… μ€€μˆ˜ λŠ₯λ ₯을 μ²΄κ³„μ μœΌλ‘œ 평가할 수 μžˆλŠ” PolicyGuardBench 벀치마크λ₯Ό κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
가볍고 효율적인 PolicyGuard λͺ¨λΈμ„ 톡해 높은 정확도와 λΉ λ₯Έ μΆ”λ‘  속도λ₯Ό λ™μ‹œμ— λ‹¬μ„±ν•˜λŠ” 것이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λͺ¨λΈμ€ λ‹€μ–‘ν•œ 도메인에 걸쳐 μš°μˆ˜ν•œ μΌλ°˜ν™” μ„±λŠ₯을 보여, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ³΅μž‘ν•˜κ³  동적인 μ‹€μ œ μ •μ±… ν™˜κ²½μ— λŒ€ν•œ λͺ¨λΈμ˜ 견고성을 λ”μš± κ°•ν™”ν•˜κ³ , λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μ •μ±… μœ„λ°˜μ„ νƒμ§€ν•˜λŠ” 데 μ΄ˆμ μ„ 맞좜 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘