Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
Created by
Haebom
저자
Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan
개요
본 논문은 어린이의 화면 노출 시간을 정확하게 모니터링하기 위한 새로운 센서 정보학 프레임워크인 스크린 타임 트래커(STT)를 제시한다. STT는 웨어러블 센서의 시점 이미지와 비전 언어 모델(VLM)을 활용하여 어린이의 화면 노출 시간을 정량적으로 측정한다. 특히, 다중 시점의 시점 이미지 시퀀스를 사용하는 다중 뷰 VLM을 설계하여 화면 노출을 동적으로 해석한다. 어린이의 자유로운 활동 데이터셋을 사용하여 기존의 방법들(단순 비전 언어 모델 및 객체 탐지 모델)보다 성능이 크게 향상됨을 보여주었으며, 자연스러운 환경에서 어린이의 화면 노출에 대한 행동 연구를 최적화할 수 있는 가능성을 제시한다.
시사점, 한계점
•
시사점:
◦
웨어러블 센서와 VLM을 활용하여 어린이의 화면 노출 시간을 효율적이고 정확하게 측정하는 새로운 방법 제시