Sign In

Control Barrier Function for Aligning Large Language Models

Created by
  • Haebom
Category
Empty

저자

Yuya Miyaoka, Masaki Inoue

개요

본 논문은 사용자가 원하는 텍스트 생성을 보장하기 위해 제어 장벽 함수(CBF)를 활용하여 대규모 언어 모델(LLM)을 정렬하는 제어 기반 프레임워크를 제안합니다. 제안된 프레임워크는 기본 LLM에서 생성된 예측 토큰에 CBF 안전 필터를 적용하여 생성된 텍스트에 개입합니다. 이 안전 필터는 기본 LLM을 미세 조정하지 않고도 정렬 목적으로 사용할 수 있으며, 원하는 정렬에 대한 평가 모델이 있는 경우 필터 설계에 직접 적용할 수 있다는 두 가지 주요 장점을 가지고 있습니다. 전체 텍스트 생성 시스템은 긍정적인 텍스트를 생성하는 것을 목표로, 오픈 소스 언어 모델로 구현됩니다.

시사점, 한계점

기본 LLM의 미세 조정 없이 안전 필터를 추가하여 정렬 가능
원하는 정렬에 대한 평가 모델이 있으면 필터 설계에 직접 적용 가능
긍정적인 텍스트 생성에 초점
논문에서 구체적인 한계점은 명시되지 않음
👍