Cet article présente MetaOcc, un framework multimodal pour une prédiction d'occupation 3D robuste, même en conditions météorologiques défavorables. MetaOcc réalise une prédiction d'occupation 3D omnidirectionnelle à l'aide d'images et de radars 4D multi-vues. Pour surmonter les limites de l'application directe d'encodeurs LiDAR à des données radar éparses, nous proposons un module d'auto-attention de hauteur radar qui améliore l'inférence spatiale verticale et l'extraction de caractéristiques. De plus, nous atténuons les décalages spatio-temporels et enrichissons la représentation des caractéristiques fusionnées grâce à une stratégie de fusion multimodale hiérarchique multi-échelles qui effectue une fusion adaptative locale-globale entre les modalités et le temps. Pour réduire la dépendance aux annotations coûteuses de nuages de points, nous proposons un pipeline de génération de pseudo-étiquettes basé sur un segmenteur à ensemble ouvert, mettant en œuvre une stratégie d'apprentissage semi-supervisé qui atteint 90 % des performances supervisées globales en utilisant seulement 50 % des étiquettes de vérité terrain. Les résultats expérimentaux montrent que MetaOcc atteint des performances de pointe en améliorant les méthodes existantes de +0,47 SC IoU et +4,02 mIoU sur l'ensemble de données OmniHD-Scenes, et de +1,16 SC IoU et +1,24 mIoU sur l'ensemble de données SurroundOcc-nuScenes.