Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning as an Adaptive Defense for Safety

Created by
  • Haebom

저자

Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar

개요

본 논문은 수학 및 코드와 같이 검증이 용이한 영역에서 LLM의 성능을 향상시키는 적응적 테스트 시간 컴퓨팅 할당 추론 방법을 안전 취약성에 대한 강건성을 갖는 모델을 훈련하는 데 활용하는 방법을 연구합니다. 연구진은 안전과 작업 완료 간의 균형을 맞추는 보상 신호와 사고 과정 추적을 사용하여 모델이 안전에 대해 추론하도록 훈련하는 강화 학습(RL) 접근 방식인 $\textit{TARS}$(Training Adaptive Reasoners for Safety)라는 레시피를 제시합니다. TARS는 (1) "경량" 웜스타트 SFT 단계, (2) 지나친 거부와 같은 지름길 행동을 방지하기 위한 유해, 무해, 모호한 프롬프트의 혼합, (3) 훈련 중 추론 능력의 퇴화를 방지하기 위한 보상 함수라는 세 가지 중요한 설계 선택을 포함합니다. TARS로 훈련된 모델은 모호한 쿼리에 더 많은 컴퓨팅 리소스를 사용하여 적응적 동작을 보이며, 안전 거부 간의 더 나은 절충안을 제공합니다. 또한 안전한 프롬프트와 안전하지 않은 프롬프트를 더 잘 구분하고 화이트박스(예: GCG) 및 블랙박스 공격(예: PAIR) 모두에 대한 더 큰 강건성을 달성합니다. 전반적으로 이 연구는 프롬프트별 추론을 통해 탈옥 및 유해한 요청으로부터 LLM을 훈련하는 효과적이고 공개적인 레시피를 제공합니다.

시사점, 한계점

시사점:
적응적 컴퓨팅 할당 추론 방법을 활용하여 LLM의 안전 취약성에 대한 강건성을 향상시키는 효과적인 방법 제시.
$\textit{TARS}$ 레시피를 통해 안전과 작업 완료 간의 균형을 맞추는 훈련 전략 제시.
모호한 쿼리에 대한 적응적 컴퓨팅 리소스 할당을 통한 안전-거부 절충안 개선.
화이트박스 및 블랙박스 공격에 대한 강건성 향상.
안전한 프롬프트와 안전하지 않은 프롬프트 구분 능력 향상.
LLM의 탈옥 및 유해한 요청에 대한 방어력 향상을 위한 공개적인 레시피 제공.
한계점:
$\textit{TARS}$ 레시피의 일반화 성능 및 다양한 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
보상 함수 설계 및 튜닝의 어려움.
다양한 유형의 안전 취약성에 대한 포괄적인 평가 부족.
실제 환경 적용 시 발생 가능한 문제점 및 한계에 대한 추가 연구 필요.
👍