Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking
Created by
Haebom
저자
Changlun Li, Yao Shi, Chen Wang, Qiqi Duan, Runke Ruan, Weijie Huang, Haonan Long, Lijun Huang, Yuyu Luo, Nan Tang
개요
본 논문은 대규모 언어 모델(LLM)의 금융 투자 관리 실효성을 실시간 환경에서 엄격하게 평가하기 위한 벤치마크 도구인 DeepFund를 제시합니다. 기존 벤치마크의 한계점인 역사적 백테스팅으로 인한 정보 누출 문제를 해결하기 위해, DeepFund는 모델 사전 훈련 이후에 공개된 실시간 주식 시장 데이터를 활용하여 공정한 평가를 수행합니다. 여러 투자 차원(종목 분석, 투자 결정, 포트폴리오 관리, 위험 관리)에서 9개의 주요 LLM을 실시간 평가 환경에서 테스트한 결과, DeepSeek-V3 및 Claude-3.7-Sonnet과 같은 최첨단 모델조차도 순손실을 기록하여, 현재 LLM의 능동적 펀드 관리의 한계를 보여줍니다. DeepFund의 코드는 깃허브에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
LLM의 실시간 금융 투자 관리 성능에 대한 객관적인 평가 기준을 제시합니다.
◦
기존 백테스팅 방식의 한계를 극복하고, 정보 누출 문제를 해결한 실시간 평가 환경을 제공합니다.
◦
최첨단 LLM조차도 실시간 시장 환경에서 수익을 내지 못한다는 것을 보여줌으로써, LLM 기반 금융 투자의 현실적인 어려움을 강조합니다.
•
한계점:
◦
DeepFund의 평가 결과는 특정 시점의 시장 상황에 의존적일 수 있습니다.
◦
평가에 사용된 LLM의 종류와 매개변수 설정이 결과에 영향을 미칠 수 있습니다.
◦
실시간 거래 환경의 복잡성과 불확실성으로 인해, DeepFund의 평가 결과가 LLM의 잠재력을 완벽하게 반영하지 못할 수 있습니다.