Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings

Created by
  • Haebom
Category
Empty

저자

Ivan Montoya Sanchez, Shaswata Mitra, Aritran Piplai, Sudip Mittal

개요

본 논문은 악성코드 변종의 급증에 따라 강력한 분류 방법이 필요하다는 점을 배경으로, 대규모 언어 모델(LLM)을 활용하여 악성코드 패밀리 분류를 개선하는 방법을 제시합니다. 기존 LLM의 의미적 임베딩 중복 및 바이너리 동작 특징과의 불일치 문제를 해결하기 위해, 코사인 유사도를 기반으로 어려운 부정적 샘플을 선택하는 대조 학습 미세 조정(CFT) 방법을 제안합니다. 고유사도 부정적 샘플과 중간 유사도 부정적 샘플을 결합하여 LLM의 판별력과 임베딩 다양성을 향상시키고, 정확도와 일반화 성능을 최적화합니다. CIC-AndMal-2020 및 BODMAS 데이터셋을 사용하여 실험한 결과, 소량의 샘플(20개)만으로도 63.15%의 분류 정확도를 달성하여 기존 방법보다 11~21%p 향상된 성능을 보였습니다. 추가적으로, 미세 조정된 LLM은 보이지 않는 변종에도 일반화되는 속성 인식 설명을 생성하여 텍스트 및 바이너리 특징 간의 차이를 해소합니다. 결론적으로, 본 연구는 악성코드 분류에 있어서 세부적인 의미적 차별화를 가능하게 하고, LLM을 사이버 보안 문제에 적용할 수 있는 확장 가능한 프레임워크를 제공합니다.

시사점, 한계점

시사점:
대조 학습 미세 조정(CFT)을 통해 LLM의 악성코드 분류 성능을 크게 향상시킬 수 있음을 보여줌.
유사도 기반 부정적 샘플 선택 전략의 우수성을 실험적으로 증명.
소량의 데이터로도 높은 분류 정확도를 달성하는 few-shot 학습 가능성 제시.
LLM을 활용하여 텍스트 기반 설명과 바이너리 특징 간의 간극을 해소하는 새로운 접근법 제시.
사이버 보안 분야에서 LLM의 활용 가능성을 확장.
한계점:
특정 데이터셋에 대한 성능 평가 결과이며, 다른 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.
사용된 LLM의 종류 및 크기에 따른 성능 변화에 대한 분석 부족.
실제 악성코드 환경에서의 적용 가능성 및 성능 검증 필요.
CFT 방법의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍