본 논문은 기계학습(ML) 모델이 사람 행위에 대한 의사결정을 내리고 사람들이 미래 데이터를 개선하기 위해 전략적으로 행동을 바꿀 수 있는 상황에서의 전략적 개인 행동이 존재하는 알고리즘적 의사결정을 연구합니다. 기존의 전략적 학습에 대한 연구는 선형 라벨링 함수를 가진 에이전트가 (잡음이 있는) 선형 의사결정 정책에 최적으로 반응하는 선형 설정에 주로 초점을 맞춰왔습니다. 반면, 본 연구는 에이전트가 정책의 "지역 정보"만으로 의사결정 정책에 반응하는 일반적인 비선형 설정에 중점을 둡니다. 또한, 의사결정자 후생(모델 예측 정확도), 사회 후생(전략적 행동으로 인한 에이전트 개선), 에이전트 후생(ML이 에이전트를 과소평가하는 정도)을 동시에 고려합니다. 먼저, 이전 연구에서 에이전트 최적 반응 모델을 비선형 설정으로 일반화한 다음, 후생 목표의 호환성을 밝힙니다. 세 가지 후생이 비선형 설정에서 달성하기 어려운 제한적인 조건 하에서만 동시에 최적을 달성할 수 있음을 보여줍니다. 이론적 결과는 하위 집합의 당사자 후생만을 최대화하는 기존 연구가 불가피하게 다른 당사자의 후생을 감소시킨다는 것을 의미합니다. 따라서 비선형 설정에서 각 당사자의 후생을 균형시킬 필요성을 주장하고 일반적인 전략적 학습에 적합한 불가약 최적화 알고리즘을 제안합니다. 합성 및 실제 데이터에 대한 실험을 통해 제안된 알고리즘의 유효성을 검증합니다.