Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MSCR: Exploring the Vulnerability of LLMs' Mathematical Reasoning Abilities Using Multi-Source Candidate Replacement

Created by
  • Haebom
Category
Empty

저자

Zhishen Sun, Guang Dai, Haishan Ye

개요

LLMs는 수학적 추론과 같은 복잡한 작업에서 인간과 유사한 성능을 보이지만, 사소한 입력 변화에 대한 수학적 추론의 견고성은 체계적으로 연구되지 않았습니다. MSCR(multi-source candidate replacement)을 제안하여, 임베딩 공간의 코사인 유사성, WordNet 사전, 마스크 언어 모델의 문맥적 예측과 같은 세 가지 정보 소스를 결합하여 의미적으로 유사한 후보를 생성합니다. GSM8K 및 MATH500 벤치마크를 사용하여 대규모 실험을 수행한 결과, 단일 단어 변화만으로도 모든 모델의 정확도가 크게 감소하고, 응답 길이가 증가하여 자원 소비가 늘어난다는 것을 발견했습니다.

시사점, 한계점

단일 단어 변경만으로도 LLM의 수학적 추론 정확도가 크게 감소할 수 있음 (GSM8K 최대 49.89%, MATH500 최대 35.40% 감소).
변화는 부정확한 출력뿐만 아니라 평균 응답 길이 증가를 초래하여, 불필요한 추론 경로와 높은 계산 자원 소비를 유발함.
MSCR은 LLM의 수학적 추론에서 견고성 부족과 효율성 병목 현상을 강조함.
연구는 현재 LLM의 수학적 추론 능력을 저하시키는 공격 방법론에 초점을 맞춤.
실험은 GSM8K 및 MATH500 벤치마크를 사용.
👍