Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning

Created by
  • Haebom
Category
Empty

저자

Lauren Deason, Adam Bali, Ciprian Bejean, Diana Bolocan, James Crnkovich, Ioana Croitoru, Krishna Durai, Chase Midler, Calin Miron, David Molnar, Brad Moon, Bruno Ostarcevic, Alberto Peltea, Matt Rosenberg, Catalin Sandu, Arthur Saputkin, Sagar Shah, Daniel Stan, Ernest Szocs, Shengye Wan, Spencer Whitman, Sven Krasser, Joshua Saxe

CyberSOCEval: 사이버 보안 LLM 벤치마크

개요

본 논문은 사이버 방어 능력을 향상시키기 위한 LLM(Large Language Model) 평가 벤치마크인 CyberSOCEval을 소개합니다. CyberSOCEval은 보안 운영 센터(SOC)에서 실제적으로 중요한 두 가지 핵심 영역인 악성코드 분석과 위협 인텔리전스 추론에 특화된 벤치마크를 제공합니다. 기존 LLM 평가가 실제 보안 상황을 충분히 반영하지 못하는 문제를 해결하고, AI 개발자와 SOC 자동화 적용자 모두에게 실질적인 지침을 제공하는 것을 목표로 합니다.

시사점, 한계점

CyberSOCEval은 악성코드 분석 및 위협 인텔리전스 추론 분야에서 LLM의 성능을 평가하는 새로운 벤치마크를 제공합니다.
더 크고 최신 LLM이 더 나은 성능을 보이는 경향이 있음을 확인하여, 훈련 스케일링 법칙의 유효성을 뒷받침합니다.
테스트 시간 스케일링을 활용하는 모델이 코딩 및 수학 분야에서와 같은 성능 향상을 보이지 못하는 점을 발견하여, 사이버 보안 분석에 대한 훈련 부족을 지적하고 개선의 여지를 제시합니다.
현재 LLM이 CyberSOCEval의 평가를 충분히 충족하지 못하여, AI 개발자들이 사이버 방어 능력을 향상시킬 수 있는 기회를 제공합니다.
👍