본 논문은 텍스트 및 시각 데이터를 결합 분석하여 건설 안전을 향상시키는 다중 모드 AI 프레임워크를 탐구한다. 건설 현장과 같은 안전에 중요한 환경에서 사고 데이터는 보고서, 검사 기록, 현장 이미지 등 다양한 형식으로 존재하므로 기존 접근 방식으로는 위험 요소를 종합하기 어렵다. 이를 해결하기 위해 본 논문은 텍스트 및 이미지 분석을 결합하여 건설 현장의 안전 위험을 식별하는 데 도움을 주는 다중 모드 AI 프레임워크를 제안한다. GPT 4o 및 GPT 4o mini를 활용하여 28,000개의 OSHA 사고 보고서(2000-2025) 데이터 세트에서 구조화된 정보를 추출하는 하이브리드 파이프라인과, Molmo 7B 및 Qwen2 VL 2B를 사용하여 공개 ConstructionSite10k 데이터 세트에서 자연어 프롬프트를 사용하여 규칙 수준 안전 위반 감지에 대한 두 모델의 성능을 평가하는 두 가지 사례 연구를 수행했다.