Sign In

From Feedback Loops to Policy Updates: Reinforcement Fine-Tuning for LLM-Based Alpha Factor Discovery

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Zixuan Xie, Chiming Duan, Minghua He, Philip S. Yu, Ying Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ LLM 기반 μ•ŒνŒŒ μš”μΈ 발꡴ λ°©λ²•μ˜ 반볡적인 ν”„λ‘¬ν”„νŠΈ-평가-ν”Όλ“œλ°± λ£¨ν”„μ—μ„œ λ°œμƒν•˜λŠ” μ»¨ν…μŠ€νŠΈ 폭발, λΉ„μš© 증가, 정보 희석 λ“±μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ κ°•ν™” ν•™μŠ΅ λ―Έμ„Έμ‘°μ •(Reinforcement Fine-Tuning)을 ν™œμš©ν•œ \textsc{QuantEvolver} ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. \textsc{QuantEvolver}λŠ” μ‹€ν–‰ κ°€λŠ₯ν•œ μ •λŸ‰μ  평가λ₯Ό μ •μ±… μ—…λ°μ΄νŠΈλ‘œ μ „ν™˜ν•˜μ—¬, LLM이 ν•™μŠ΅μ„ 톡해 κ³Όκ±° μ΅œμ ν™” κ²½ν—˜μ„ λ‚΄μž¬ν™”ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯κ³Ό 더 높은 ν’ˆμ§ˆ 및 μƒν˜Έ 보완적인 μš”μΈ 풀을 ν™•λ³΄ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
핡심 μ‹œμ‚¬μ  1: κ°•ν™” ν•™μŠ΅ 기반의 μ •μ±… μ—…λ°μ΄νŠΈλ₯Ό 톡해 LLM이 κ³Όκ±° 탐색 κ²½ν—˜μ„ 효과적으둜 λ‚΄μž¬ν™”ν•˜μ—¬, 반볡적인 ν”„λ‘¬ν”„νŠΈ 였λ₯˜λ₯Ό 쀄이고 탐색 νš¨μœ¨μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
핡심 μ‹œμ‚¬μ  2: "Diversity-Complementarity Reward"λ₯Ό λ„μž…ν•˜μ—¬ μƒμ„±λ˜λŠ” μ•ŒνŒŒ μš”μΈλ“€μ˜ λ‹€μ–‘μ„±κ³Ό μƒν˜Έ 보완성을 κ°•ν™”ν•¨μœΌλ‘œμ¨, μ‹€μ œ 거래 ν™˜κ²½μ—μ„œ 더 κ²¬κ³ ν•˜κ³  효과적인 μš”μΈ 풀을 ꡬ좕할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ κ°•ν™” ν•™μŠ΅ 정책을 ν•™μŠ΅ν•˜λŠ” 데 ν•„μš”ν•œ 데이터셋 ꡬ좕 및 ν•™μŠ΅ κ³Όμ •μ˜ μ•ˆμ •μ„± 확보, 그리고 μ‹€μ œ 금육 μ‹œμž₯μ—μ„œμ˜ μž₯기적인 μ„±λŠ₯ 검증 및 μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘