본 논문은 안전에 중요한 응용 분야에서 점점 더 많이 사용되는 심층 학습 모델의 적대적 방해에 대한 취약성 평가의 중요성을 강조합니다. 기존의 백색 상자 적대적 견고성 평가 방법들의 한계를 지적하며, 이미지 분류 모델을 위한 새로운 개별 공격 방법인 확률 마진 공격(PMA)을 제안합니다. PMA는 로짓 공간이 아닌 확률 공간에서 적대적 마진을 정의하며, 기존 방법들보다 성능이 우수함을 보입니다. PMA를 기반으로 효율성과 효과의 균형을 맞춘 두 가지 유형의 앙상블 공격을 제안하고, CC3M 데이터셋에서 파생된 백만 단위 규모의 데이터셋 CC1M을 생성하여 적대적 학습된 ImageNet 모델에 대한 최초의 백만 단위 규모 백색 상자 적대적 견고성 평가를 수행합니다. 개별 공격 대 앙상블 공격, 소규모 평가 대 백만 단위 규모 평가 간의 견고성 차이에 대한 통찰력을 제공합니다.