Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Identification of Malicious Posts on the Dark Web Using Supervised Machine Learning

Created by
  • Haebom
Category
Empty

저자

Sebastiao Alves de Jesus Filho, Gustavo Di Giovanni Bernardo, Paulo Henrique Ribeiro Gabriel, Bruno Bogaz Zarpelao, Rodrigo Sanches Miani

개요

사이버 공격의 증가와 정교함에 대응하기 위해, 본 연구는 머신러닝 기반의 사이버 위협 인텔리전스(CTI)를 활용하여 악성 게시물을 탐지하는 방법을 제시한다. 특히 브라질 포르투갈어로 작성된 다크 웹 포럼 데이터를 대상으로 텍스트 마이닝과 머신러닝 기법을 적용하여 악성 게시물을 식별한다. 세 개의 원본 데이터 세트를 생성하고, IoCs(침해 지표), 문맥 키워드, 수동 분석을 결합한 다단계 레이블링 프로세스를 개발했으며, 텍스트 표현 및 분류기에 대한 포괄적인 평가를 수행했다. LightGBM과 TF-IDF를 사용한 모델이 높은 정확도로 관련 게시물을 탐지했으며, 토픽 모델링을 통해 모델의 유효성을 검증했다.

시사점, 한계점

시사점:
브라질 포르투갈어 다크 웹 데이터에 대한 최초의 연구로, 특정 언어 및 문화권에 특화된 사이버 위협 탐지 모델 개발 가능성을 제시함.
IoCs, 문맥 키워드, 수동 분석을 결합한 다단계 레이블링 프로세스를 통해 정확한 데이터 라벨링 및 모델 학습 가능성을 보여줌.
LightGBM과 TF-IDF의 조합을 통해 높은 정확도의 악성 게시물 탐지 모델을 구축하고, 실제 환경에서의 적용 가능성을 입증함.
토픽 모델링을 통해 모델의 결과 검증 및 미탐지된 악성 게시물 탐지의 가능성을 제시함.
한계점:
다크 웹 데이터의 특성상 데이터 수집 및 접근에 어려움이 있을 수 있음.
브라질 포르투갈어에 특화되어 있어 다른 언어권에 대한 일반화 가능성이 제한적일 수 있음.
모델의 성능은 데이터의 품질과 양에 크게 의존하며, 데이터 편향에 취약할 수 있음.
특정 머신러닝 모델(LightGBM)과 텍스트 표현(TF-IDF)에 의존하여, 다른 모델 및 텍스트 표현 기법과의 비교 분석이 필요함.
👍