Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker

Created by
  • Haebom

저자

Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan

개요

본 논문은 어린이의 화면 노출 시간을 정확하게 모니터링하기 위한 새로운 센서 정보학 프레임워크인 스크린 타임 트래커(STT)를 제시한다. STT는 웨어러블 센서의 시점 이미지와 비전 언어 모델(VLM)을 활용하여 어린이의 화면 노출 시간을 정량적으로 측정한다. 특히, 다중 시점의 시점 이미지 시퀀스를 사용하는 다중 뷰 VLM을 설계하여 화면 노출을 동적으로 해석한다. 어린이의 자유로운 활동 데이터셋을 사용하여 기존의 방법들(단순 비전 언어 모델 및 객체 탐지 모델)보다 성능이 크게 향상됨을 보여주었으며, 자연스러운 환경에서 어린이의 화면 노출에 대한 행동 연구를 최적화할 수 있는 가능성을 제시한다.

시사점, 한계점

시사점:
웨어러블 센서와 VLM을 활용하여 어린이의 화면 노출 시간을 효율적이고 정확하게 측정하는 새로운 방법 제시
기존의 자가 보고나 부피가 큰 웨어러블 센서를 이용한 수동 측정 방식의 한계 극복
다중 뷰 VLM을 통해 화면 노출을 동적으로 해석하여 정확도 향상
어린이들의 자연스러운 환경에서의 화면 노출 행동 연구에 기여 가능
한계점:
제시된 방법의 일반화 가능성 및 다양한 환경에서의 성능 검증 필요
데이터셋의 크기 및 다양성에 따른 성능 변화 분석 필요
개인정보보호 및 윤리적 문제 고려 필요
장기간 사용 시 웨어러블 센서의 배터리 수명 및 내구성 고려 필요
👍