본 논문은 산업용 사물 인터넷(IIoT) 환경에서 클래스 불균형 및 소수 샘플 공격 시나리오를 위한 강력하고 강화 학습 기반의 네트워크 침입 탐지 시스템(NIDS)을 제안합니다. 제안된 모델은 효과적인 표 형식 특징 표현을 위해 TabTransformer를 통합하고, 정책 학습을 통해 분류 결정을 최적화하기 위해 근위 정책 최적화(PPO)를 사용합니다. TON_IoT 벤치마크에서 평가한 결과, 매크로 F1 점수 97.73%와 정확도 98.85%를 달성했습니다. 특히, 중간자 공격(MITM)과 같이 매우 드문 클래스에서도 88.79%의 F1 점수를 달성하여 강력한 강건성과 소수 샘플 탐지 기능을 보여줍니다. 광범위한 ablation 실험을 통해 TabTransformer와 PPO가 클래스 불균형을 완화하고 일반화 성능을 향상시키는 데 상호 보완적인 역할을 한다는 것을 확인했습니다. 이러한 결과는 실제 NIDS 애플리케이션을 위해 Transformer 기반 표 학습과 강화 학습을 결합하는 잠재력을 강조합니다.