본 논문은 텍스트 분류 문제에서 적대적 공격이 모델의 해석 가능성에 미치는 영향을 분석합니다. 텍스트 데이터에 대한 머신러닝 기반 분류 모델을 개발하고, 적대적 섭동을 도입하여 공격 후 분류 성능을 평가합니다. 공격 전후 모델의 설명 가능성을 분석하고 해석합니다. 이는 자율주행, 의료 진단, 보안 시스템 등에서 심각한 결과를 초래할 수 있는 딥러닝 모델의 적대적 공격 취약성에 대한 연구의 일환입니다.
시사점, 한계점
•
시사점: 적대적 공격이 텍스트 분류 모델의 성능과 해석 가능성에 미치는 영향을 정량적으로 분석함으로써, 모델의 안전성 및 신뢰성 향상을 위한 방향을 제시할 수 있습니다. 특히, 모델의 설명 가능성 변화를 분석하여 공격에 대한 취약점을 파악하고 방어 전략을 개선하는 데 기여할 수 있습니다.
•
한계점: 본 논문에서 사용된 데이터셋과 모델의 일반화 가능성에 대한 검토가 필요합니다. 다양한 데이터셋과 모델에 대한 실험을 통해 결과의 범용성을 확인해야 합니다. 또한, 다양한 유형의 적대적 공격에 대한 분석이 부족할 수 있으며, 더욱 강력한 공격 기법에 대한 연구가 필요합니다. 마지막으로, 해석 가능성의 정량적 평가 지표에 대한 명확한 정의 및 기준이 필요합니다.