Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps

Created by
  • Haebom

저자

Yu Cui, Bryan Hooi, Yujun Cai, Yiwei Wang

개요

최근 장거리 사고 과정(Chain-of-Thought)을 통해 수학적 추론 능력이 향상된 추론 대형 언어 모델(LLM)들이 등장했습니다. 이 모델들의 추론 토큰은 추론 과정 내에서 자기 수정을 가능하게 하여 강건성을 높입니다. 본 연구는 이러한 추론 LLM들이 입력 추론 과정의 미묘한 오류에 얼마나 취약한지 조사합니다. 연구에서는 조작된 계산 결과를 포함하는 추론 토큰을 제시했을 때 모델이 정확한 추론 단계를 무시하고 잘못된 결과를 채택하는 "Compromising Thought"(CPT)라는 취약성을 제시합니다. 다양한 추론 LLM에 대한 체계적인 평가를 통해 CPT 저항성을 측정하기 위한 세 가지 점점 더 명시적인 프롬프트 방법을 설계하여 모델이 이러한 조작을 식별하고 수정하는 데 어려움을 겪는다는 것을 밝힙니다. 기존 연구에서 구조적 변경이 내용 수정보다 모델 성능에 더 큰 영향을 미친다는 제안과는 달리, 국소적 종결 토큰 조작이 구조적 변경보다 추론 결과에 더 큰 영향을 미친다는 것을 발견했습니다. 또한, 조작된 추론 토큰이 추론을 완전히 중단시킬 수 있는 DeepSeek-R1의 보안 취약성을 발견했습니다. 본 연구는 추론 강건성에 대한 이해를 높이고 추론 집약적 애플리케이션에 대한 보안 고려 사항을 강조합니다.

시사점, 한계점

시사점: 추론 LLM의 취약성인 CPT를 밝히고, 이를 측정하기 위한 다양한 프롬프트 방법을 제시함으로써 추론 LLM의 강건성에 대한 이해를 높였습니다. 국소적 종결 토큰 조작이 구조적 변경보다 추론 결과에 더 큰 영향을 미친다는 사실을 발견하여 기존 연구 결과를 보완했습니다. DeepSeek-R1의 보안 취약성을 발견하여 추론 집약적 애플리케이션의 보안 고려 사항을 강조했습니다.
한계점: 특정 LLM과 제한된 유형의 수학적 추론 문제에 대한 평가에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다. CPT 저항성을 높이기 위한 구체적인 해결책이나 방어 메커니즘은 제시하지 않았습니다. 다양한 유형의 조작 및 더욱 복잡한 추론 과정에 대한 추가 연구가 필요합니다.
👍