본 논문은 프롬프트 인젝션 공격에 대한 대응책으로, 최첨단 성능을 가진 오픈소스, 오픈-웨이트 LLM인 Meta SecAlign을 제시합니다. Meta SecAlign은 향상된 SecAlign 방어 기법을 활용하여 훈련되었으며, 9개의 유틸리티 벤치마크와 7개의 보안 벤치마크 평가에서 우수한 성능을 보였습니다. 특히, 도구 호출 및 에이전트 웹 탐색과 같은 다양한 다운스트림 작업에서도 보안성을 유지하며, 70B 파라미터 모델인 Meta-SecAlign-70B는 최첨단의 프롬프트 인젝션 공격 방어력과 상용 수준의 LLM과 유사한 유틸리티를 달성했습니다. 오픈소스 모델을 통해 AI 보안 커뮤니티의 공동 연구를 장려하여 프롬프트 인젝션 공격에 대한 방어 기술 발전을 목표로 합니다.