Trong bài báo này, chúng tôi trình bày Pulse-PPG, mô hình dựa trên PPG nguồn mở đầu tiên được đào tạo hoàn toàn trên dữ liệu PPG thô thu thập được trong quá trình nghiên cứu thực địa kéo dài 100 ngày với 120 người tham gia. Các mô hình dựa trên PPG hiện có là nguồn mở, nhưng được đào tạo trên dữ liệu lâm sàng hoặc độc quyền, hạn chế khả năng ứng dụng của chúng trong môi trường thực tế. Pulse-PPG được đánh giá trên nhiều tập dữ liệu và tác vụ phụ, và được so sánh với các mô hình cơ sở hiện đại được đào tạo trên dữ liệu lâm sàng. Kết quả của chúng tôi cho thấy Pulse-PPG được đào tạo trên dữ liệu thực địa thô thể hiện khả năng khái quát hóa tuyệt vời trên các ứng dụng y tế di động và lâm sàng trong cả môi trường phòng thí nghiệm và thực địa. Điều này cho thấy việc tiếp xúc với biến động trong thế giới thực cho phép các mô hình học các biểu diễn chi tiết, giúp chúng thích ứng tốt hơn với các tác vụ. Hơn nữa, việc đào tạo trước trên dữ liệu thực địa có hiệu suất vượt trội đáng ngạc nhiên so với đào tạo trước trên dữ liệu lâm sàng trong nhiều tác vụ, điều này nhấn mạnh tầm quan trọng của việc đào tạo trên các tập dữ liệu thực tế đa dạng. Chúng tôi dự định công khai Pulse-PPG để khuyến khích phát triển các mô hình cơ sở mạnh mẽ sử dụng dữ liệu thực địa.