Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ADALog: Adaptive Unsupervised Anomaly detection in Logs with Self-attention Masked Language Model

Created by
  • Haebom

저자

Przemek Pospieszny, Wojciech Mormul, Karolina Szyndler, Sanjeev Kumar

개요

ADALog는 다양한 실제 환경에서 실용적으로 적용 가능하도록 설계된 적응형 비지도 이상 탐지 프레임워크입니다. 로그 파싱, 엄격한 시퀀스 의존성 또는 레이블이 지정된 데이터에 의존하는 기존 방법과 달리, ADALog는 비정형 로그를 개별적으로 처리하고 로그 내 문맥 관계를 추출하며 정상 데이터에 대한 적응형 임계값 처리를 수행합니다. 변압기 기반의 사전 훈련된 양방향 인코더를 사용하며, 마스크 언어 모델링 작업으로 정상 로그를 미세 조정하여 정확한 이상 탐지를 위해 필수적인 도메인 특정 구문 및 의미 패턴을 캡처합니다. 토큰 수준의 재구성 확률을 통해 이상을 식별하고 로그 수준 점수로 집계하며, 정상 데이터에 대해서만 보정된 적응형 백분위수 기반 임계값 처리를 사용합니다. BGL, Thunderbird, Spirit 벤치마크 데이터셋에서 평가하여 최첨단 지도 및 비지도 방법과 비교하여 강력한 일반화 및 경쟁력 있는 성능을 보여줍니다. 추가적인 제거 연구는 마스킹, 미세 조정 및 토큰 배치가 모델 동작과 해석 가능성에 미치는 영향을 조사합니다.

시사점, 한계점

시사점:
로그 파싱이나 엄격한 시퀀스 의존성 없이 비정형 로그에 대한 이상 탐지 가능
적응형 임계값 처리를 통해 시스템 동작 변화에 대한 동적 적응 가능
사전 훈련된 변압기 기반 모델을 활용하여 우수한 성능과 일반화 성능 달성
벤치마크 데이터셋에서 경쟁력 있는 성능 입증
한계점:
실제 환경에서의 다양한 로그 형식 및 패턴에 대한 일반화 성능의 추가적인 검증 필요
모델의 해석 가능성에 대한 추가 연구 필요 (ablation study 결과의 자세한 내용이 부족)
특정 도메인에 대한 과적합 가능성 존재 (데이터셋 종류에 따라 성능 차이 발생 가능성)
👍