본 논문은 대규모 언어 모델(LLM)을 핵심 소프트웨어 시스템에 통합하는 과정에서 발생하는 안전 문제에 대응하기 위해, 런타임에서 자율적으로 안전 프로토콜을 조정하는 새로운 소프트웨어 아키텍처를 제안한다. Self-Improving Safety Framework (SISF)라는 이 아키텍처는 안전하지 않은 기본 LLM(mistralai/Mistral-7B-v0.1)과 동적 피드백 루프를 결합한다. 이 루프는 위반 감지를 위한 AI Adjudicator (GPT-4o)와 실패에 대응하여 새로운 안전 정책을 자율적으로 생성하는 Policy Synthesis Module (GPT-4 Turbo)로 구성된다. AdvBench 데이터셋을 사용한 평가 결과, SISF는 초기 정책 없이 시작하여 237건의 위반을 감지하고 234개의 새로운 정책을 생성하여 공격 성공률(ASR)을 45.58%로 감소시켰다. 또한, 520개의 정상적인 프롬프트에 대한 테스트에서 0.00%의 거짓 양성률(FPR)을 달성하여 사용자 유틸리티를 저해하지 않음을 입증했다.