본 논문은 대규모 언어 모델(LLM)의 금융 의사결정 능력에 대한 평가가 부족함을 지적하며, 기존 벤치마크의 데이터 유출, 자기 참조, 과도한 개입, 유지보수 어려움 등의 문제점을 제시합니다. 이에 따라 실제 환경에서 LLM 기반 투자 전략을 평가할 수 있는 포괄적인 플랫폼인 DeepFund를 소개합니다. DeepFund는 다중 에이전트 프레임워크를 구현하여 실제 투자 의사결정 과정을 반영하며, 웹 인터페이스를 통해 다양한 시장 조건에서 LLM의 성능을 시각화하고 비교 분석할 수 있도록 지원합니다. 본 연구는 DeepFund를 통해 LLM의 실제 금융 시장 적용 가능성에 대한 현실적이고 공정한 평가를 제공하고자 합니다. 코드는 깃허브에서 공개적으로 이용 가능합니다.