本文探讨了从以自我为中心的视频数据中识别用户不准确行为的问题。为了处理细微且罕见的错误,我们提出了一种双阶段重加权混合专家 (DR-MoE) 框架。在第一阶段,使用固定的 ViViT 模型和 LoRA 调整的 ViViT 模型提取特征,然后通过特征级专家模块进行组合。在第二阶段,使用重加权交叉熵训练三个分类器以缓解类别不平衡问题,使用 AUC 损失来提高在倾斜分布中的排名,并使用标签感知损失和锐度感知最小化来增强校准和泛化能力。使用类别级专家模块融合它们的预测。所提出的方法在识别罕见和模糊错误方面表现出尤为稳健的性能。