Cet article souligne le manque d'évaluation de la capacité décisionnelle financière des modèles de langage à grande échelle (MLH) et présente les problèmes des benchmarks existants, tels que la fuite de données, l'autoréférence, l'intervention excessive et les difficultés de maintenance. Par conséquent, nous présentons DeepFund, une plateforme complète d'évaluation des stratégies d'investissement basées sur les LMH en situation réelle. DeepFund met en œuvre un cadre multi-agents pour refléter le processus décisionnel d'investissement réel et prend en charge la visualisation et l'analyse comparative des performances des LMH dans diverses conditions de marché via une interface web. Cette étude vise à fournir une évaluation réaliste et juste de l'applicabilité des LMH aux marchés financiers réels grâce à DeepFund. Le code est accessible au public sur GitHub.