haebom
Sign In
Zoom In, Reason Out: Efficient Far-field Anomaly Detection in Expressway Surveillance Videos via Focused VLM Reasoning Guided by Bayesian Inference
Created by
Haebom
Category
Empty
μ μ
Xiaowei Mao, Bowen Sui, Weijie Zhang, Yawen Yang, Shengnan Guo, Shilong Zhao, Jiaqi Lin, Tingrui Wu, Youfang Lin, Huaiyu Wa
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ³ μλλ‘ CCTV μμμμ λ°μνλ λ―Έλ¬ν μ΄μ μ°¨λ μμ§μμ νμ§νλ λ° λ°μνλ μ΄λ €μμ ν΄κ²°νκΈ° μν΄ Vision-Language Model (VLM)κ³Ό λ² μ΄μ¦ μΆλ‘ μ κ²°ν©ν VIBES νλ μμν¬λ₯Ό μ μν©λλ€. VIBESλ μ¨λΌμΈ λ² μ΄μ¦ μΆλ‘ μ ν΅ν΄ μ μμ μΈ μ£Όν νλμ νλ₯ μ κ²½κ³λ₯Ό λμ μΌλ‘ μ λ°μ΄νΈνκ³ , μ΄λ₯Ό νΈλ¦¬κ±°λ‘ νμ©νμ¬ VLMμ΄ μ΄μ μ§νκ° λ°μν κ΅μ μμμλ§ μ§μ€νλλ‘ ν¨μΌλ‘μ¨ μ£Όμλ ₯ ν¬μ λ¬Έμ λ₯Ό ν΄κ²°νκ³ κ³μ° λΉμ©μ μ κ°ν©λλ€. μ΄λ₯Ό ν΅ν΄ λ€μν κ³ μλλ‘ νκ²½μμλ λμ νμ§ μ νλ, μ€μκ° ν¨μ¨μ± λ° μ€λͺ κ°λ₯μ±μ λ¬μ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ거리 λ° λ―Έλ¬ν μ΄μ νμ§ λ₯λ ₯ ν₯μ:
λ² μ΄μ¦ μΆλ‘ κΈ°λ°μ λμ μ μ νλ λͺ¨λΈλ§κ³Ό VLMμ κ΅μμ μ§μ€μ ν΅ν΄ μ거리μμ λ°μνλ λ―Έλ¬ν μ΄μ μμ§μμ ν¨κ³Όμ μΌλ‘ νμ§ν μ μμ΅λλ€.
β’
κ³μ° ν¨μ¨μ± λ° μ€μκ° μ²λ¦¬ λ₯λ ₯ κ°ν:
μ 체 νλ μ λμ νΈλ¦¬κ±°λ νΉμ μμλ§μ VLMμ΄ μ²λ¦¬ν¨μΌλ‘μ¨ κ³μ° λΆνλ₯Ό λν μ€μ¬ μ€μκ° μ²λ¦¬κ° κ°λ₯νκ² ν©λλ€.
β’
λ€μν νκ²½μ λν μΌλ°ν μ±λ₯ ν보:
μ¨λΌμΈ λ² μ΄μ¦ μΆλ‘ λͺ¨λμ΄ μ§μμ μΌλ‘ μ μ μ£Όν νλμ νμ΅νκ³ μ λ°μ΄νΈνλ―λ‘, λ€μν κ³ μλλ‘ νκ²½μ λν μΌλ°ν μ±λ₯μ΄ ν₯μλ©λλ€.
β’
νΈλ¦¬κ±° λ©μ»€λμ¦μ μ νμ± λ° μ΄μ νμ§μ λ―Όκ°λ:
λ² μ΄μ¦ μΆλ‘ κΈ°λ° νΈλ¦¬κ±° λ©μ»€λμ¦μ μ νλκ° VIBESμ μ 체μ μΈ μ΄μ νμ§ μ±λ₯μ λ―ΈμΉλ μν₯, κ·Έλ¦¬κ³ λ§€μ° ν¬κ·νκ±°λ μμμΉ λͺ»ν μ΄μ νλμ λν νμ§ λ―Όκ°λ κ°μ μ΄ ν₯ν κ³Όμ λ‘ λ¨μ΅λλ€.
PDF 보기
Made with Slashpage