From Feedback Loops to Policy Updates: Reinforcement Fine-Tuning for LLM-Based Alpha Factor Discovery

작성자

Haebom

카테고리

Empty

저자

Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Zixuan Xie, Chiming Duan, Minghua He, Philip S. Yu, Ying Li

💡 개요

본 논문은 기존 LLM 기반 알파 요인 발굴 방법의 반복적인 프롬프트-평가-피드백 루프에서 발생하는 컨텍스트 폭발, 비용 증가, 정보 희석 등의 한계를 극복하기 위해 강화 학습 미세조정(Reinforcement Fine-Tuning)을 활용한 \textsc{QuantEvolver} 프레임워크를 제안합니다. \textsc{QuantEvolver}는 실행 가능한 정량적 평가를 정책 업데이트로 전환하여, LLM이 학습을 통해 과거 최적화 경험을 내재화하도록 합니다. 이를 통해 기존 방법론 대비 우수한 성능과 더 높은 품질 및 상호 보완적인 요인 풀을 확보하는 것을 목표로 합니다.

🔑 시사점 및 한계

•

핵심 시사점 1: 강화 학습 기반의 정책 업데이트를 통해 LLM이 과거 탐색 경험을 효과적으로 내재화하여, 반복적인 프롬프트 오류를 줄이고 탐색 효율성을 높일 수 있습니다.

•

핵심 시사점 2: "Diversity-Complementarity Reward"를 도입하여 생성되는 알파 요인들의 다양성과 상호 보완성을 강화함으로써, 실제 거래 환경에서 더 견고하고 효과적인 요인 풀을 구축할 수 있습니다.

•

한계점 또는 향후 과제: 제안된 방법론의 강화 학습 정책을 학습하는 데 필요한 데이터셋 구축 및 학습 과정의 안정성 확보, 그리고 실제 금융 시장에서의 장기적인 성능 검증 및 일반화 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage