본 논문은 혼합정수 선형 계획법(MILP) 문제 해결을 위한 새로운 강화학습 기반 솔버를 제안합니다. 기존의 end-to-end 학습 방식은 일부 결정 변수에 대한 값을 생성하고 나머지는 기존 MILP 솔버에 위임하는데, 이는 예측의 부정확성으로 인해 해의 실행 가능성을 보장하지 못하고 이진 변수에만 초점을 맞춘다는 한계가 있습니다. 본 논문에서 제안하는 방법은 기존 솔버에 위임하지 않고도 실행 가능한 해를 찾고 점진적으로 더 나은 해를 발견하는 강화학습 기반 솔버로, 특히 정수 변수를 포함하는 MILP 문제에서 실행 가능성을 보장하는 데 중점을 둡니다. 실험 결과, 제안된 방법이 (거의) 최적의 해를 달성함을 보여줍니다.