본 논문은 버퍼 오버플로우 및 SQL 인젝션과 같은 소프트웨어 취약성 탐지를 위한 경량의 해석 가능한 대안으로 Sparse Autoencoder(SAE)를 제시합니다. 기존의 취약성 탐지 방법의 한계점인 높은 오탐률, 확장성 문제, 수동 작업 의존성을 극복하기 위해, 사전 학습된 GPT-2 Small 및 Gemma 2B와 같은 Large Language Models(LLMs)의 내부 표현을 이용하여 SAE를 통해 자바 함수의 버그 탐지를 수행합니다. LLM을 미세 조정하지 않고 SAE를 통해 추출된 특징을 이용하여 최대 89%의 F1 점수를 달성하며, 미세 조정된 Transformer 기반 모델보다 성능이 우수함을 실험적으로 증명합니다. 이는 사전 학습된 LLM의 내부 표현을 직접 사용하여 소프트웨어 버그를 탐지하는 SAE의 효용성을 보여주는 최초의 연구입니다.