본 논문은 CNN과 Transformer의 장점을 활용하여 MPox 감지를 향상시키는 RS-CA-HSICT라는 하이브리드 딥러닝 접근 방식을 제안한다. 이 프레임워크는 HSICT 블록, 잔차 CNN 모듈, 공간 CNN 블록 및 CA로 구성되어 다양한 특징 공간, 상세한 병변 정보 및 장거리 의존성을 향상시킨다. 새로운 HSICT 모듈은 효율적인 멀티헤드 어텐션과 구조화된 CNN 레이어를 위해 stem CNN의 추상 표현과 맞춤형 ICT 블록을 통합한다. RS-CA-HSICT 프레임워크는 TL 기반 잔차 및 공간 CNN 맵으로 학습된 HSICT 채널을 보강하여 글로벌 및 국소 구조적 단서, 미묘한 질감 및 대비 변화를 포착하는 향상된 다중 스케일 특징 공간을 제공한다. 실험 결과, Kaggle 벤치마크 및 다양한 MPox 데이터 세트에서 98.30%의 분류 정확도와 98.13%의 F1 점수를 기록하여 기존 CNN 및 ViT를 능가했다.