Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AI Bill of Materials and Beyond: Systematizing Security Assurance through the AI Risk Scanning (AIRS) Framework

Created by
  • Haebom
Category
Empty

저자

Samuel Nathanson, Alexander Lee, Catherine Chen Kieffer, Jared Junkin, Jessica Ye, Amir Saeed, Melanie Lockhart, Russ Fink, Elisha Peterson, Lanier Watkins

개요

본 논문은 인공지능(AI) 시스템의 안전성 확보가 소프트웨어 공급망 보안, 적대적 머신러닝, 거버넌스 문서화 등 여러 분야에 걸쳐 단편적으로 이루어지는 문제를 해결하고자, AI 안전성 확보를 위한 위협 모델 기반의 증거 생성 프레임워크인 AI 위험 스캐닝(AIRS) 프레임워크를 소개합니다. Smurf, OPAL, Pilot C의 3단계 파일럿 연구를 통해 개발되었으며, 모델 카드, 데이터시트, SBOM(Software Bills of Materials)과 같은 기존 투명성 메커니즘의 한계를 보완하여, 설명적인 공개에서 측정 가능하고 증거 기반의 검증으로 AI 문서화를 전환합니다. AIRS 프레임워크는 MITRE ATLAS 적대적 ML 분류법에 따라 안전성 확보 분야를 정렬하고, 모델 무결성, 패키징 및 직렬화 안전성, 구조적 어댑터, 런타임 동작을 캡처하는 구조화된 아티팩트를 자동으로 생성합니다. 현재 대규모 언어 모델(LLM)에 대한 모델 수준의 안전성 확보를 제공하며, 양자화된 GPT-OSS-20B 모델에 대한 증명-개념을 통해 안전한 로더 정책, 샤드별 해시 검증, 오염 및 백도어 프로브의 실행을 시연합니다. SPDX 3.0 및 CycloneDX 1.6의 SBOM 표준과의 비교 분석을 통해 AI 관련 안전성 확보 분야를 표현하는 데 있어 중요한 격차를 확인하며, 위협 모델링과 자동화되고 감사 가능한 증거 생성을 결합하여 표준화되고 신뢰할 수 있으며 기계 검증 가능한 AI 위험 문서화를 위한 원칙적인 기반을 제공합니다.

시사점, 한계점

시사점:
AI 시스템의 안전성 확보를 위한 새로운 프레임워크 제시: 위협 모델링 기반 및 자동화된 증거 생성을 통해 AI 위험 문서화의 표준화와 신뢰성을 높임.
기존 투명성 메커니즘의 한계 보완: 모델 카드, 데이터시트, SBOM 등을 보완하여 측정 가능하고 증거 기반의 검증 가능성을 제공.
MITRE ATLAS 적대적 ML 분류법과의 정렬: 안전성 확보 분야의 체계적 구성 및 모델 무결성, 패키징 안전성 등의 자동화된 아티팩트 생성.
실질적인 적용 사례 제시: 양자화된 GPT-OSS-20B 모델에 대한 증명-개념을 통해 안전한 로더 정책, 해시 검증, 오염 및 백도어 프로브 실행 시연.
SBOM 표준과의 비교 분석: AI 특정 안전성 확보 분야 표현의 격차를 확인하고, AI 영역으로의 SBOM 확장을 제시.
한계점:
현재 LLM에 대한 모델 수준의 안전성 확보에 초점: 다른 모달리티 및 시스템 수준의 위협(예: 응용 프로그램 레이어 악용, 도구 호출)으로의 확장 필요.
구체적인 구현 및 성능에 대한 추가 정보 부족: 프레임워크의 실제 활용성 및 효율성에 대한 추가적인 증거 필요.
파일럿 연구의 규모 및 범위: 소규모 파일럿 연구 결과의 일반화 가능성에 대한 추가적인 검증 필요.
👍