본 논문은 사용자가 원하는 텍스트 생성을 보장하기 위해 제어 장벽 함수(CBF)를 활용하여 대규모 언어 모델(LLM)을 정렬하는 제어 기반 프레임워크를 제안합니다. 제안된 프레임워크는 기본 LLM에서 생성된 예측 토큰에 CBF 안전 필터를 적용하여 생성된 텍스트에 개입합니다. 이 안전 필터는 기본 LLM을 미세 조정하지 않고도 정렬 목적으로 사용할 수 있으며, 원하는 정렬에 대한 평가 모델이 있는 경우 필터 설계에 직접 적용할 수 있다는 두 가지 주요 장점을 가지고 있습니다. 전체 텍스트 생성 시스템은 긍정적인 텍스트를 생성하는 것을 목표로, 오픈 소스 언어 모델로 구현됩니다.