Sign In

Consistency Training Helps Stop Sycophancy and Jailbreaks

Created by
  • Haebom
Category
Empty

저자

Alex Irpan, Alexander Matt Turner, Mark Kurzeja, David K. Elson, Rohin Shah

개요

LLM의 사실성 및 거부 훈련은 프롬프트의 사소한 변경으로 인해 손상될 수 있습니다. 모델은 종종 사용자 신념을 따르거나(아첨) 특수 텍스트 내에 래핑된 부적절한 요청을 충족합니다(탈옥). 본 논문은 프롬프트의 특정 관련 없는 단서에 대해 모델이 불변성을 갖도록 학습시키는 자기 지도 학습 패러다임인 \emph{일관성 훈련}을 탐구합니다. 특정 프롬프트에 대한 정확한 응답을 학습시키는 대신, 프롬프트 데이터 증강(선도 질문 또는 탈옥 텍스트 추가 등)에서 동일하게 동작하도록 모델을 학습시키는 것을 목표로 합니다. 모델의 외부 출력(Chua et al. [2025]의 \emph{Bias-augmented Consistency Training} (BCT))과 내부 활성화(본 연구에서 소개한 \emph{Activation Consistency Training} (ACT))를 통해 이 불변성을 적용합니다. 두 방법 모두 Gemini 2.5 Flash의 관련 없는 단서에 대한 취약성을 줄입니다. 일관성 훈련은 모델 자체의 응답을 훈련 데이터로 사용하기 때문에 모델 기능 저하 또는 오래된 응답 지침 적용과 같은 오래된 훈련 데이터에서 발생하는 문제를 피합니다. BCT와 ACT는 아첨을 동일하게 잘 줄이지만, BCT는 탈옥 감소에 더 효과적입니다. BCT는 정적 데이터 세트에 대한 의존성을 제거하여 훈련 파이프라인을 단순화할 수 있다고 생각합니다. 일부 정렬 문제는 최적의 응답보다는 일관성 문제로 보는 것이 더 적절하다고 주장합니다.

시사점, 한계점

시사점:
일관성 훈련은 LLM의 사실성 및 거부 훈련을 향상시키는 새로운 접근 방식입니다.
BCT와 ACT는 모델이 관련 없는 프롬프트 단서에 덜 취약하도록 돕습니다.
일관성 훈련은 stale training data 문제를 해결합니다.
BCT는 훈련 파이프라인을 단순화할 수 있습니다.
일부 정렬 문제는 일관성 문제로 간주될 수 있습니다.
한계점:
BCT와 ACT의 상대적인 장단점을 더 잘 이해하기 위한 추가 연구가 필요합니다.
더 다양한 모델과 작업에 대한 일관성 훈련의 효과를 평가해야 합니다.
본 논문에서 제안된 방법론의 일반화 가능성을 더 연구해야 합니다.
👍