대규모 시각-언어 모델(LVLM)은 객체 감지 등 시각 정보를 필요로 하는 작업에서 뛰어난 능력을 보이며, 자율 주행과 같은 산업 분야에 적용될 수 있다. 본 연구는 운전자와 도로를 모두 감시하는 동기화된 입력 처리를 위해 LVLM의 능력을 조사한다. 이를 위해 데이터셋을 구축하고, 사전 훈련된 LVLM과 미세 조정된 LVLM의 성능을 평가했다. 실험 결과, 미세 조정된 LVLM은 정확하고 안전 관련 지침을 생성할 수 있지만, 미묘하거나 복잡한 이벤트 감지에는 한계가 있었다.