Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Self-Improving Architecture for Dynamic Safety in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tyler Slater

개요

본 논문은 대규모 언어 모델(LLM)을 핵심 소프트웨어 시스템에 통합하는 과정에서 발생하는 안전 문제에 대응하기 위해, 런타임에서 자율적으로 안전 프로토콜을 조정하는 새로운 소프트웨어 아키텍처를 제안한다. Self-Improving Safety Framework (SISF)라는 이 아키텍처는 안전하지 않은 기본 LLM(mistralai/Mistral-7B-v0.1)과 동적 피드백 루프를 결합한다. 이 루프는 위반 감지를 위한 AI Adjudicator (GPT-4o)와 실패에 대응하여 새로운 안전 정책을 자율적으로 생성하는 Policy Synthesis Module (GPT-4 Turbo)로 구성된다. AdvBench 데이터셋을 사용한 평가 결과, SISF는 초기 정책 없이 시작하여 237건의 위반을 감지하고 234개의 새로운 정책을 생성하여 공격 성공률(ASR)을 45.58%로 감소시켰다. 또한, 520개의 정상적인 프롬프트에 대한 테스트에서 0.00%의 거짓 양성률(FPR)을 달성하여 사용자 유틸리티를 저해하지 않음을 입증했다.

시사점, 한계점

시사점:
자율 적응형 AI 안전 아키텍처는 효과적인 안전 전략임을 입증.
안전 보장을 정적, 사전 배포 활동에서 자동화된 런타임 프로세스로 전환 가능성을 제시.
보다 견고하고 탄력적이며 확장 가능한 AI 기반 시스템 구축에 기여.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약 내용에 기반)
👍