Este artículo estudia la toma de decisiones algorítmica en la que existe un comportamiento individual estratégico, donde los modelos de aprendizaje automático (AA) toman decisiones sobre el comportamiento humano y las personas pueden modificar estratégicamente su comportamiento para mejorar los datos futuros. La investigación previa sobre aprendizaje estratégico se ha centrado principalmente en entornos lineales, donde los agentes con funciones de etiquetado lineales responden óptimamente a políticas de decisión lineales (ruidosas). En cambio, este artículo se centra en entornos no lineales generales, donde los agentes responden a políticas de decisión basadas únicamente en información local sobre la política. Además, consideramos simultáneamente el bienestar del decisor (precisión de la predicción del modelo), el bienestar social (mejora del agente debido al comportamiento estratégico) y el bienestar del agente (el grado en que el AA subestima al agente). Primero, generalizamos el modelo de respuesta óptima del agente de investigaciones previas a entornos no lineales y, a continuación, demostramos la compatibilidad de los objetivos de bienestar. Demostramos que los tres objetivos de bienestar solo pueden ser óptimos simultáneamente en condiciones limitadas, difíciles de lograr en entornos no lineales. Los resultados teóricos implican que la investigación existente que maximiza únicamente el bienestar de un subconjunto de las partes inevitablemente disminuye el bienestar de las demás. Por lo tanto, argumentamos la necesidad de equilibrar el bienestar de cada parte en un entorno no lineal y proponemos un algoritmo de optimización indeterminado adecuado para el aprendizaje estratégico general. Verificamos la eficacia del algoritmo propuesto mediante experimentos con datos sintéticos y del mundo real.