LLM 기반 에이전트의 안전성 및 보안성 평가의 어려움을 해결하기 위해, 기존의 규칙 기반 또는 LLM 기반 평가자의 한계(단계별 행동의 위험 간과, 미묘한 의미 간과, 작은 문제의 누적 효과 간과, 모호한 규칙에 대한 혼란)를 극복하는 새로운 평가 프레임워크인 \sys를 제안한다. \sys는 LLM이 과거 상호작용으로부터 구조화된 의미적 특징(예: 시나리오, 위험, 행동)을 추출하고, 연관된 사고 과정 추론 기록을 생성하여 경험적 메모리를 구축한다. 다단계 상황 인식 검색 증강 생성 과정을 통해 관련 추론 경험을 동적으로 검색하여 새로운 사례 평가를 안내한다. LLM 기반 평가자가 안전 위험과 보안 위협을 모두 감지하는 능력을 평가하기 위한 새로운 벤치마크인 \data (2293개의 주석이 달린 상호작용 기록, 15가지 위험 유형, 29가지 응용 시나리오 포함, 모호한 위험 상황에 대한 '엄격' 및 '관대한' 판단 기준 사용)를 개발했다. 실험 결과, \sys는 모든 벤치마크에서 LLM의 평가 성능을 향상시키고, 에이전트 안전 및 보안에 대한 LLM 평가자의 최첨단 성능을 달성하여 인간 수준의 정확도를 달성함을 보여준다. 본 연구는 공개적으로 접근 가능하다.