Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Shuaitong Liu, Renjue Li, Lijia Yu, Lijun Zhang, Zhiming Liu, Gaojie Jin

개요

Chain-of-Thought (CoT) 프롬프팅을 사용하는 LLM의 추론 능력 향상에도 불구하고, 계산 효율성이 새로운 공격 표면으로 부상했습니다. 본 논문은 CoT가 활성화된 LLM에 "과잉 사고" 행동을 의도적으로 유발하도록 설계된 최초의 백도어 공격인 BadThink를 제안합니다. BadThink는 신중하게 제작된 트리거 프롬프트에 의해 활성화되어 모델이 최종 출력의 일관성을 유지하면서 불필요하게 중복된 사고 과정을 생성하도록 조작합니다. 이러한 공격은 은밀하게 성능 저하를 유발하여 계산 비용과 추론 시간을 크게 증가시킵니다. BadThink는 정교한 포이즈닝 기반 미세 조정 전략을 통해 구현되며, LLM 기반 반복적 최적화 프로세스를 사용하여 자연스러운 포이즌 데이터를 생성함으로써 공격을 내재화합니다. 실험 결과, BadThink는 여러 최첨단 모델 및 추론 작업에서 추론 추적 길이를 일관되게 증가시켰으며 (MATH-500 데이터 세트에서 17배 이상 증가), 은밀하고 견고한 특성을 보였습니다. 이 연구는 추론 효율성을 은밀하게 조작할 수 있는 새로운 취약점을 공개하며, CoT 기반 시스템에 대한 새로운 종류의 정교한 공격을 제시합니다.

시사점, 한계점

시사점:
CoT 기반 LLM의 계산 효율성에 대한 새로운 공격 벡터 제시
BadThink 공격은 은밀하게 성능 저하를 유발하고 탐지가 어려움
포이즈닝 기반 미세 조정을 통한 백도어 공격 구현
추론 추적 길이 증가를 통해 계산 비용 및 추론 시간 증가
CoT 시스템의 새로운 보안 취약점 제시
한계점:
본 논문에서 제안된 BadThink 공격의 구체적인 방어 메커니즘에 대한 논의 부족
BadThink 공격의 실제 환경에서의 위험성 평가 부족
다양한 모델 및 작업에 대한 공격의 일반화 가능성 추가 연구 필요
👍