この論文は、拡張現実(XR)、ロボット工学、および人間とコンピュータの相互作用の分野で不可欠な正確な視線固定深さを推定するための新しい方法であるFOVALを提示します。既存の方法がユーザー固有のキャリブレーションに大きく依存して拡張性と使いやすさが制限される問題を解決するために、FOVALは長短期メモリ(LSTM)ネットワークを使用した時空間シーケンスモデリングとユーザー不変の特徴エンジニアリングと正規化を組み合わせたキャリブレーションを必要としない強力なアプローチを提案します。 Transformer、Temporal Convolutional Networks(TCN)、CNNと比較して、特に制限的でノイズの多い視線データシナリオで優れたパフォーマンスを実現します。 3つのベンチマークデータセットのLeave-One-Out Cross-Validation(LOOCV)とクロスデータセットの検証は、平均絶対誤差(MAE)9.1cmを達成し、補正なしで強力な一般化性能を示しました。さらに、ユーザー間のボラティリティとドメインの動きを分析し、モデルの堅牢性と適応性に関する洞察を提供します。 FOVALのスケーラビリティと精度は、実際の環境展開に非常に適しています。