Sign In

Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference

Created by
  • Haebom
Category
Empty

저자

Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong

개요

본 논문은 대규모 언어 모델(LLM)이 프롬프트에서 지정된 규칙을 따르지 않도록 하는 방법을 연구합니다. 규칙 준수를 명제 Horn 논리에서의 추론으로 공식화하여, 규칙이 "$P$와 $Q$이면 $R$"의 형태를 갖는 수학적 시스템으로 정의합니다. 소규모 트랜스포머는 이러한 규칙을 충실히 따를 수 있지만, 악의적으로 작성된 프롬프트는 이론적 구성과 데이터로 학습된 모델 모두를 오도할 수 있음을 증명합니다. 또한, LLM에 대한 인기 있는 공격 알고리즘이 적대적 프롬프트를 찾고 이론과 일치하는 주의 패턴을 유도함을 보여줍니다. 논리 기반 프레임워크는 규칙 기반 설정에서 LLM을 연구하기 위한 기반을 제공하여 논리적 추론 및 탈옥 공격과 같은 작업에 대한 공식적인 분석을 가능하게 합니다.

시사점, 한계점

시사점:
LLM의 규칙 준수를 명제 Horn 논리로 공식화하여 분석의 수학적 기반을 제공합니다.
악의적인 프롬프트가 이론적 모델과 실제 모델 모두를 오도할 수 있음을 증명합니다.
기존의 LLM 공격 알고리즘이 제시하는 결과가 본 논문의 이론과 일치함을 보여줍니다.
논리적 추론 및 탈옥 공격과 같은 작업에 대한 공식적인 분석을 가능하게 하는 새로운 프레임워크를 제공합니다.
한계점:
본 연구는 명제 Horn 논리에 기반하여, 더 복잡한 규칙이나 비형식적인 규칙에 대한 일반화에는 한계가 있을 수 있습니다.
실제 LLM의 복잡성을 완전히 포착하지 못할 수 있습니다.
제시된 프레임워크의 실제 적용 범위와 효율성에 대한 추가적인 연구가 필요합니다.
👍