Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking

작성자

Haebom

카테고리

Empty

저자

Haoyu Wang, Chris M. Poskitt, Jun Sun, Jiali Wei

개요

본 논문은 대규모 언어 모델(LLM) 에이전트의 불확실성으로 인한 안전 위험을 해결하기 위해, 사전 예방적 런타임 강화 프레임워크인 Pro2Guard를 제안합니다. Pro2Guard는 에이전트의 행동을 상징적 상태로 추상화하고, 실행 추적에서 이산 시간 마르코프 체인(DTMC)을 학습합니다. 런타임 시, 위험 상태에 도달할 확률을 예측하여 위험이 임계값을 초과하면 위반 발생 전에 개입합니다. 의미적 유효성 검사와 PAC 경계를 활용하여 통계적 신뢰성을 보장합니다. 가정용 에이전트와 자율 주행 시나리오에서의 실험 결과, Pro2Guard는 안전 위반을 효과적으로 예측하고 예방하는 것을 보여줍니다.