Cet article met en évidence les défis de la prévision des séries temporelles financières et les limites des approches existantes (perte d'information due à la standardisation des données, nombre fixe de variables et longueur historique des séries temporelles, interprétabilité et incertitude des prévisions). Pour relever ces défis, nous construisons un ensemble diversifié de données financières image-texte (FVLDB) et développons une méthode d'optimisation de politique relative de groupe ajustée à l'incertitude (UARPO) capable de prévoir et d'analyser l'incertitude. Nous proposons FinZero, un modèle multimodal pré-entraîné affiné avec UARPO, pour effectuer l'inférence, la prévision et la compréhension analytique des séries temporelles financières FVLDB. Les résultats expérimentaux démontrent une forte adaptabilité et évolutivité, et en particulier, FinZero améliore la précision des prévisions d'environ 13,48 % dans le groupe de confiance élevée par rapport à GPT-4o, démontrant l'efficacité du réglage fin par apprentissage par renforcement dans les modèles multimodaux à grande échelle.