haebom
Sign In
Proof-of-Guardrail in AI Agents and What (Not) to Trust from It
Created by
Haebom
Category
Empty
μ μ
Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren
π‘ κ°μ
AI μμ΄μ νΈμ μ¨λΌμΈ μλΉμ€ νμ°μΌλ‘ κ°λ°μμ μμ λ³΄μ¦ μ£Όμ₯μ λν μ¬μ©μ μ λ’°λκ° λμμ§λ©΄μ, μμ μ‘°μΉλ₯Ό νμ κ΄κ³ νλ μνμ΄ λ°μνκ³ μμ΅λλ€. λ³Έ λ Όλ¬Έμ νΉμ μ€ν μμ€ κ°λλ μΌμ ν΅κ³Όν μλ΅μμ μνΈνμ μΌλ‘ μ¦λͺ νλ 'Proof-of-Guardrail' μμ€ν μ μ μν©λλ€. μ΄λ₯Ό μν΄ κ°λ°μλ μ λ’° μ€ν νκ²½(TEE) λ΄μμ μμ΄μ νΈμ κ°λλ μΌμ μ€ννκ³ , TEE μλͺ λ μ¦λͺ μλ₯Ό μμ±νμ¬ μ¬μ©μλ μ€νλΌμΈμΌλ‘ κ²μ¦ν μ μμ΅λλ€.
π μμ¬μ λ° νκ³
β’
AI μμ΄μ νΈμ μμ μ± κ²μ¦μ λν μ λ’°μ±μ λμ΄κ³ , κ°λ°μμ κ±°μ§ κ΄κ³ μνμ λμν μ μλ μλ‘μ΄ λ°©μμ μ μν©λλ€.
β’
κ°λ°μμ μμ΄μ νΈ μ½λλ λΉκ³΅κ°λ‘ μ μ§νλ©΄μ κ°λλ μΌ μ€νμ 무결μ±μ 보μ₯νλ λμμ, κ°λλ μΌ νμ₯(jailbreaking)κ³Ό κ°μ μ μμ μΈ μμμ κ°λ₯μ±μ λν μνμ κ°μ‘°ν©λλ€.
β’
TEEλ₯Ό νμ©ν μ¦λͺ λ°©μμ κΈ°μ μ 볡μ‘μ±κ³Ό μ μ¬μ μΈ μ·¨μ½μ (μ: TEE μ체μ 보μ λ¬Έμ , κ°λλ μΌ μ°ν μλ)μ λν μΆκ°μ μΈ μ°κ΅¬μ 보μ κ°νκ° νμν©λλ€.
PDF 보기
Made with Slashpage