본 논문은 이진 악성코드의 동작을 사람이 읽을 수 있는 설명으로 자동 생성하는 이진 악성코드 요약에 관한 연구입니다. 기존의 대규모 언어 모델(LLM) 기반 방법들이 유용성, 정확성, 완전성 면에서 한계를 보이는 문제를 해결하기 위해, 악성 소스 코드와 양성 의사 코드를 활용하여 반복적으로 설명을 생성하는 새로운 코드 요약 프레임워크인 MALSIGHT를 제안합니다. 특히, LLM과 수동 검증을 통해 최초의 악성코드 요약 데이터셋인 MalS와 MalP를 구축하고, 새로운 LLM 기반 코드 모델인 MalT5를 학습시켜 의사 코드 함수를 반복적으로 입력하여 요약을 생성합니다. 이를 통해 의사 코드 구조 이해 및 함수 간 상호 작용 포착을 개선하여 요약의 유용성, 정확성, 완전성을 향상시키고, 요약 품질 측정을 위한 새로운 평가 기준인 BLEURT-sum을 제안합니다. 세 개의 데이터셋에 대한 실험을 통해 MALSIGHT의 효과를 검증하고, 0.77B 매개변수의 MalT5가 훨씬 더 큰 Code-Llama와 비교 가능한 성능을 보임을 보여줍니다.