Sign In

SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Elle Najt, Colin Toft, Tyler Tracy, Fabien Roger, Joe Benton

πŸ’‘ κ°œμš”

λ³Έ 논문은 자율 μ½”λ”© μ—μ΄μ „νŠΈμ˜ μœ„ν—˜ν•œ μ˜€μž‘λ™μ„ 쀄이기 μœ„ν•΄ LLM 기반 λͺ¨λ‹ˆν„°λ₯Ό μ‚¬μš©ν•˜λŠ” 것에 λŒ€ν•œ 이해λ₯Ό λ†’μ΄κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 11κ°€μ§€ 범주에 걸쳐 40κ°€μ§€ 곡격을 ν¬ν•¨ν•˜λŠ” ν•©μ„± 전사본 벀치마크인 SLEIGHT-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ΅œμ‹  λͺ¨λ‹ˆν„°λ„ 일뢀 곡격 μ „λž΅μ— μ·¨μ•½ν•˜λ‹€λŠ” 것을 λ°œκ²¬ν–ˆμœΌλ©°, 특히 λͺ¨λΈ 사전 지식, μ§€μΉ¨ λͺ¨ν˜Έμ„±, μƒνƒœ μ‘°μž‘μ„ μ΄μš©ν•œ νšŒν”Ό μ „λž΅μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
자율 μ½”λ”© μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„± κ°•ν™”λ₯Ό μœ„ν•΄ LLM 기반 λͺ¨λ‹ˆν„°μ˜ 잠재λ ₯κ³Ό ν•œκ³„λ₯Ό μ‹€μ¦μ μœΌλ‘œ 뢄석할 수 μžˆλŠ” 벀치마크λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λͺ¨λ‹ˆν„° μ„±λŠ₯ ν–₯상을 μœ„ν•΄ νŠΉμ • νšŒν”Ό μ „λž΅μ— λŒ€ν•œ λ§žμΆ€ν˜• ν”„λ‘¬ν”„νŠΈ μ‚¬μš©μ΄ 효과적일 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ‹œλœ λ²€μΉ˜λ§ˆν¬μ™€ 평가 ν”„λ ˆμž„μ›Œν¬λŠ” ν–₯ν›„ μ—μ΄μ „νŠΈ λͺ¨λ‹ˆν„°λ§ 연ꡬ에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ΅œμ‹  LLM λͺ¨λ‹ˆν„°λ„ μƒλ‹Ήμˆ˜μ˜ 곡격을 νƒμ§€ν•˜μ§€ λͺ»ν•˜λŠ” ν•œκ³„κ°€ 있으며, 이λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•œ 지속적인 연ꡬ와 λ°œμ „μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘