본 논문은 강화학습을 이용한 공식 알파 팩터 생성 프레임워크의 한계점을 지적하고, 이를 개선하기 위한 새로운 알고리즘을 제안한다. 기존 연구에서 사용된 PPO 알고리즘의 문제점을 분석하고, Monte Carlo sampling을 사용하는 REINFORCE 알고리즘 기반의 새로운 알고리즘을 제시한다. 알파 팩터 생성 과정에서 나타나는 고분산 문제를 해결하기 위해 새로운 베이스라인을 설계하고, 정보비율을 보상으로 활용하여 시장 변동성에 잘 적응하는 안정적인 알파 팩터 생성을 유도한다. 실제 자산 데이터를 이용한 실험 결과, 제안된 알고리즘이 기존 알파 팩터 생성 방법보다 수익률과의 상관관계를 3.83% 향상시키고 초과 수익을 더 잘 얻는다는 것을 보여준다.