LCC-LLM: Leveraging Code-Centric Large Language Models for Malware Attribution

작성자

Haebom

카테고리

Empty

저자

Christopher G. Pedraza Pohlenz, Hassan Jalil Hadi, Ali Hassan, Ali Shoker

💡 개요

이 논문은 기존 LLM 기반 악성코드 분석의 코드 수준 이해 부족 문제를 해결하기 위해 코드 중심의 벤치마크 데이터셋과 증거 기반 프레임워크인 LCC-LLM을 제안합니다. LCC-LLM은 대규모 역공학 파이프라인으로 처리된 약 34,000개의 PE 샘플을 C 코드, 어셈블리 코드, CFG/FCG 등 다양한 형식으로 표현하며, LangGraph를 활용한 정적 분석과 다중 소스 사이버 보안 지식을 통합하여 증거 기반 추론을 지원합니다. 이를 통해 악성코드 속성 규명 및 다중 작업 정적 악성코드 분석의 신뢰성과 운영 유용성을 향상시킵니다.

🔑 시사점 및 한계

•

코드 중심의 표현과 증거 기반 검색 및 검증이 LLM 기반 악성코드 분석의 정확성과 실용성을 크게 향상시킬 수 있습니다.

•

제안된 LCC-LLM 프레임워크는 악성코드 속성 규명, IoC 추출, 취약점 평가 등 다양한 악성코드 분석 작업에서 우수한 성능을 보여줍니다.

•

실제 악성코드 사례 연구에서 LCC-LLM은 10/10의 구조화된 분석 통과율을 달성하며 분석가 친화적인 보고서를 생성했습니다.

•

향후 연구에서는 더 다양한 유형의 악성코드 및 고급 분석 기법을 지원하도록 확장하거나, 실시간 위협 탐지 시스템과의 통합을 고려할 수 있습니다.

PDF 보기

Made with Slashpage