Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GlitchMiner: Mining Glitch Tokens in Large Language Models via Gradient-based Discrete Optimization

Created by
  • Haebom
Category
Empty

저자

Zihui Wu, Haichang Gao, Ping Wang, Shudong Zhang, Zhaoxiang Liu, Shiguo Lian

개요

Glitch tokens은 LLM에서 예측 불가능하거나 비정상적인 동작을 유발하는 입력으로, 모델의 신뢰성과 안전성에 심각한 문제를 제기한다. GlitchMiner는 예측 엔트로피를 최대화하여 glitch tokens을 식별하는 행동 기반 프레임워크이다. 모델 특정적인 휴리스틱이나 대량의 배치 샘플링에 의존하지 않고, 그래디언트 기반의 로컬 탐색 전략을 활용하여 이산 토큰 공간을 효율적으로 탐색한다. GlitchMiner는 5개의 주요 모델 제품군에서 10개의 LLM에 대한 광범위한 실험을 통해 기존 접근 방식보다 감지 정확도와 쿼리 효율성 면에서 일관되게 우수한 성능을 보였다.

시사점, 한계점

시사점:
Glitch tokens을 효과적으로 식별하는 일반화 가능하고 확장 가능한 솔루션 제공.
모델 특정 휴리스틱이나 대량의 배치 샘플링에 의존하지 않아 다양한 LLM 아키텍처에 적용 가능.
기존 방법론보다 향상된 감지 정확도와 쿼리 효율성 달성.
한계점:
본 논문에서 구체적인 한계점은 명시되지 않음.
👍