本論文は、視覚言語探索(VLN)で物理エージェントの安全性を確保するという問題を扱います。特に、自然言語命令を理解し、環境を認識し、リアルタイムでリスクを回避する必要がある人間 - コンピュータ相互作用ベースのドローン探索に焦点を当てています。このために、制御バリア関数(CBF)とモデル予測制御(MPC)を活用して、RGB-Dカメラのエゴ中心観測情報を活用する新しいシーン認識CBFを提案する。既存のCBFを使用しない基準システムは、視覚言語エンコーダとオブジェクト検出モデルを使用して経路を計画します。さらに、適応安全マージンアルゴリズム(ASMA)を提示して移動物体を追跡し、リアルタイムでシーン認識CBF評価を実行して、MPCフレームワーク内の追加の制約として使用します。 Gazebo環境でParrot Bebop2クワッドローターに適用した結果、基準システムと比較して成功率が64%-67%増加し、経路長は1.4%-5.8%だけ増加することを確認した。