Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps

Created by
  • Haebom
Category
Empty

저자

Yu Cui, Bryan Hooi, Yujun Cai, Yiwei Wang

개요

최근 장쇄 사고 과정(Chain-of-Thought)을 통해 수학적 추론 능력이 향상된 대규모 언어 모델(LLM)들이 등장했습니다. 이 모델들의 추론 토큰은 추론 과정 내에서 자기 수정을 가능하게 하여 강건성을 높입니다. 본 연구는 추론 LLM이 입력 추론 과정의 미묘한 오류에 얼마나 취약한지에 대한 탐구입니다. 연구진은 조작된 계산 결과를 포함하는 추론 토큰이 제시될 때 모델이 정확한 추론 단계를 무시하고 대신 잘못된 결과를 채택하는 취약점인 "Compromising Thought"(CPT)를 제시합니다. 여러 추론 LLM에 대한 체계적인 평가를 통해 세 가지 점점 더 명시적인 프롬프트 방법을 설계하여 CPT 저항성을 측정하고, 모델이 이러한 조작을 식별하고 수정하는 데 상당한 어려움을 겪는다는 것을 밝혀냈습니다. 기존 연구에서 구조적 변경이 내용 수정보다 모델 성능에 더 큰 영향을 미친다는 주장과는 달리, 국소적 종료 토큰 조작이 구조적 변경보다 추론 결과에 더 큰 영향을 미친다는 것을 발견했습니다. 또한, 조작된 추론 토큰이 추론 중단을 유발할 수 있는 DeepSeek-R1의 보안 취약점을 발견했습니다. 본 연구는 추론 강건성에 대한 이해를 높이고 추론 집약적 애플리케이션에 대한 보안 문제를 강조합니다.

시사점, 한계점

시사점: 추론 LLM의 취약점인 CPT를 밝히고, 그 저항성을 측정하는 방법을 제시함으로써 추론 LLM의 강건성에 대한 이해를 증진시켰습니다. 국소적 종료 토큰 조작이 구조적 변경보다 더 큰 영향을 미친다는 사실을 발견하여 추론 모델의 보안 및 안전성 향상에 기여할 수 있습니다. DeepSeek-R1의 보안 취약점을 발견하여 실제 애플리케이션에서의 보안 위험을 강조했습니다.
한계점: 본 연구는 특정 LLM과 특정 유형의 조작에 집중되어 있으므로, 다른 LLM이나 다양한 조작 유형에 대한 일반화 가능성에 대한 추가 연구가 필요합니다. CPT 저항성을 향상시키기 위한 구체적인 해결책이나 방어 메커니즘은 제시하지 않았습니다.
👍