본 논문은 악성코드 변종의 급증에 따라 강력한 분류 방법이 필요하다는 점을 배경으로, 대규모 언어 모델(LLM)을 활용하여 악성코드 패밀리 분류를 개선하는 방법을 제시합니다. 기존 LLM의 의미적 임베딩 중복 및 바이너리 동작 특징과의 불일치 문제를 해결하기 위해, 코사인 유사도를 기반으로 어려운 부정적 샘플을 선택하는 대조 학습 미세 조정(CFT) 방법을 제안합니다. 고유사도 부정적 샘플과 중간 유사도 부정적 샘플을 결합하여 LLM의 판별력과 임베딩 다양성을 향상시키고, 정확도와 일반화 성능을 최적화합니다. CIC-AndMal-2020 및 BODMAS 데이터셋을 사용하여 실험한 결과, 소량의 샘플(20개)만으로도 63.15%의 분류 정확도를 달성하여 기존 방법보다 11~21%p 향상된 성능을 보였습니다. 추가적으로, 미세 조정된 LLM은 보이지 않는 변종에도 일반화되는 속성 인식 설명을 생성하여 텍스트 및 바이너리 특징 간의 차이를 해소합니다. 결론적으로, 본 연구는 악성코드 분류에 있어서 세부적인 의미적 차별화를 가능하게 하고, LLM을 사이버 보안 문제에 적용할 수 있는 확장 가능한 프레임워크를 제공합니다.