본 논문은 대규모 언어 모델(LLM)의 강건성과 공정성을 보장하는 데 초점을 맞추고 있다. 특히, 동의어 치환과 같은 작은 변화에도 모델 예측이 바뀌는 적대적 공격에 취약한 LLM의 문제점을 다룬다. 이를 해결하기 위해 변환기 기반 LLM의 강건성을 검증하는 포괄적인 검증 프레임워크를 제시하며, 성별 공정성 및 성별 관련 용어에 대한 일관된 출력을 보장하는 데 중점을 둔다. 또한, 이 방법론을 독성 감지에 확장하여 적대적으로 조작된 독성 입력이 일관되게 감지되고 적절하게 검열되도록 함으로써 조정 시스템의 신뢰성을 보장한다. 임베딩 공간 내에서 강건성을 공식화함으로써 윤리적인 AI 배포 및 콘텐츠 조정에서 LLM의 신뢰성을 강화한다.