Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automated Hazard Detection in Construction Sites Using Large Language and Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Islem Sahraoui

개요

본 논문은 텍스트 및 시각 데이터를 결합 분석하여 건설 안전을 향상시키는 다중 모드 AI 프레임워크를 탐구한다. 건설 현장과 같은 안전에 중요한 환경에서 사고 데이터는 보고서, 검사 기록, 현장 이미지 등 다양한 형식으로 존재하므로 기존 접근 방식으로는 위험 요소를 종합하기 어렵다. 이를 해결하기 위해 본 논문은 텍스트 및 이미지 분석을 결합하여 건설 현장의 안전 위험을 식별하는 데 도움을 주는 다중 모드 AI 프레임워크를 제안한다. GPT 4o 및 GPT 4o mini를 활용하여 28,000개의 OSHA 사고 보고서(2000-2025) 데이터 세트에서 구조화된 정보를 추출하는 하이브리드 파이프라인과, Molmo 7B 및 Qwen2 VL 2B를 사용하여 공개 ConstructionSite10k 데이터 세트에서 자연어 프롬프트를 사용하여 규칙 수준 안전 위반 감지에 대한 두 모델의 성능을 평가하는 두 가지 사례 연구를 수행했다.

시사점, 한계점

시사점:
대형 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용한 다중 모드 AI 프레임워크를 통해 건설 현장 안전 위험 식별 가능성을 제시함.
오픈 소스 VLM인 Molmo 7B 및 Qwen2 VL 2B가 특정 프롬프트 설정에서 경쟁력 있는 성능을 보여, 저자원 다중 모드 시스템의 실현 가능성을 입증함.
비용 효율적인 안전 모니터링 시스템 구축 가능성을 제시함.
한계점:
구체적인 성능 지표, 정확도, 정밀도, 재현율 등 구체적인 수치 정보가 부족함.
제안된 프레임워크의 실제 현장 적용 및 효과에 대한 평가가 부족함.
다양한 건설 환경 및 위험 요소에 대한 일반화 가능성에 대한 추가 연구 필요.
Molmo 7B 및 Qwen2 VL 2B의 구체적인 한계점 및 개선 방향에 대한 정보 부족.
👍