この論文は、雑音環境におけるエンドツーエンド音声認識(ASR)モデルの重大な意味論的エラー発生問題を扱います。既存のモデルが最終出力エラーのみを制裁する「直接マッピング」方式の限界を指摘し、マイクロレベルのトークン整列とマクロレベルの文の意味を同時に規制するモデル独立のプラグアンドプレイモジュールであるマルチ粒度ソフト一貫性(MGSC)フレームワークを提案します。 MGSCは、2つの一貫性粒度間の相乗効果を利用して、個々の貢献の合計をはるかに上回る堅牢性を向上させ、パブリックデータセットのさまざまなノイズ条件で平均文字エラー率を8.7%減少させます。これは主に重大な意味変更エラーを防止することによって可能になった。この研究は、内部一貫性の強化がより堅牢で信頼できるAIを構築するための重要なステップであることを示しています。