Bài báo này nêu bật những hạn chế của các phương pháp hiện có trong việc phát hiện lỗ hổng phần mềm như tràn bộ đệm và tiêm SQL (tỷ lệ dương tính giả cao, vấn đề về khả năng mở rộng và phụ thuộc vào can thiệp thủ công) và khơi dậy sự quan tâm đến các phương pháp tiếp cận dựa trên AI. Cụ thể, chúng tôi đề xuất Sparse Autoencoder (SAE) như một giải pháp thay thế nhẹ và dễ diễn giải để khắc phục các thách thức về khả năng diễn giải và triển khai. Chúng tôi đánh giá SAE trên các biểu diễn được tạo ra từ GPT-2 Small và Gemma 2B để phát hiện lỗi trong các hàm Java và chứng minh rằng nó đạt hiệu suất vượt trội (lên đến 89% điểm F1) so với các mô hình dựa trên bộ biến đổi tinh chỉnh hiện có. Đây là nghiên cứu đầu tiên chứng minh bằng thực nghiệm rằng SAE có thể phát hiện lỗi phần mềm từ các biểu diễn nội bộ của các LLM được huấn luyện trước mà không cần tinh chỉnh hoặc giám sát theo từng tác vụ cụ thể. Mã nguồn có sẵn trên GitHub.