본 논문은 시각-언어 탐색(VLN)에서 물리적 에이전트의 안전성을 확보하는 문제를 다룬다. 특히, 자연어 명령을 이해하고 환경을 인지하며 실시간으로 위험을 회피해야 하는 인간-컴퓨터 상호작용 기반의 드론 탐색에 초점을 맞춘다. 이를 위해 제어 장벽 함수(CBF)와 모델 예측 제어(MPC)를 활용하여, RGB-D 카메라의 에고중심 관측 정보를 활용하는 새로운 장면 인식 CBF를 제안한다. 기존의 CBF를 사용하지 않는 기준 시스템은 시각-언어 인코더와 객체 탐지 모델을 이용하여 경로를 계획한다. 추가적으로, 적응적 안전 마진 알고리즘(ASMA)을 제시하여 움직이는 물체를 추적하고 실시간으로 장면 인식 CBF 평가를 수행하여 MPC 프레임워크 내에서 추가적인 제약 조건으로 활용한다. Gazebo 환경에서 Parrot Bebop2 쿼드로터에 적용한 결과, 기준 시스템 대비 성공률이 64%-67% 증가하고, 경로 길이는 1.4%-5.8%만 증가하는 것을 확인했다.