Este artículo presenta un nuevo marco para investigar sistemáticamente vulnerabilidades en decodificadores de redes neuronales gráficas (GNN) para la corrección de errores cuánticos (QEC) utilizando agentes de aprendizaje por refuerzo (RL). El agente RL se entrena como un adversario, buscando la corrección mínima del síndrome que causa la clasificación errónea del decodificador. Aplicando este marco a un decodificador de red de atención gráfica (GAT) entrenado con datos de código de superficie experimentales de Google Quantum AI, demostramos que el agente RL identifica con éxito vulnerabilidades críticas específicas con una alta tasa de éxito de ataque y mínimas inversiones de bits. Además, demostramos que el entrenamiento adversarial, que reentrena el modelo utilizando ejemplos adversariales generados por el agente RL, puede mejorar significativamente la robustez del decodificador. Este proceso iterativo de descubrimiento automatizado de vulnerabilidades y reentrenamiento dirigido a objetivos presenta una metodología prometedora para desarrollar decodificadores de redes neuronales más confiables y robustos para la computación cuántica tolerante a fallos.