Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Created by

Haebom

저자

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren

💡 개요

AI 에이전트의 온라인 서비스 확산으로 개발자의 안전 보증 주장에 대한 사용자 신뢰도가 높아지면서, 안전 조치를 허위 광고하는 위협이 발생하고 있습니다. 본 논문은 특정 오픈 소스 가드레일을 통과한 응답임을 암호학적으로 증명하는 'Proof-of-Guardrail' 시스템을 제안합니다. 이를 위해 개발자는 신뢰 실행 환경(TEE) 내에서 에이전트와 가드레일을 실행하고, TEE 서명된 증명서를 생성하여 사용자는 오프라인으로 검증할 수 있습니다.

🔑 시사점 및 한계

•

AI 에이전트의 안전성 검증에 대한 신뢰성을 높이고, 개발자의 거짓 광고 위협에 대응할 수 있는 새로운 방안을 제시합니다.

•

개발자의 에이전트 코드는 비공개로 유지하면서 가드레일 실행의 무결성을 보장하는 동시에, 가드레일 탈옥(jailbreaking)과 같은 악의적인 속임수 가능성에 대한 위험을 강조합니다.

•

TEE를 활용한 증명 방식은 기술적 복잡성과 잠재적인 취약점(예: TEE 자체의 보안 문제, 가드레일 우회 시도)에 대한 추가적인 연구와 보안 강화가 필요합니다.

PDF 보기

Made with Slashpage