Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nhận dạng thực thể có tên opioid (ONER-2025) từ Reddit

Created by
  • Haebom

Tác giả

Muhammad Ahmad, Rita Orji, Fida Ullah, Ildar Batyrshin, Grigori Sidorov

Phác thảo

Bài báo này đề xuất phân tích dữ liệu phi cấu trúc từ các nền tảng mạng xã hội như Reddit như một giải pháp cho cuộc khủng hoảng quá liều opioid, một vấn đề sức khỏe cộng đồng nghiêm trọng tại Hoa Kỳ. Dựa trên dữ liệu người dùng Reddit chia sẻ kinh nghiệm sử dụng opioid, chúng tôi trích xuất thông tin bằng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tận dụng Nhận dạng Thực thể có Tên Opioid (ONER-2025). Chúng tôi xây dựng một tập dữ liệu độc đáo, được chú thích thủ công gồm 331.285 mã thông báo và trình bày chi tiết quy trình chú thích cũng như các thách thức liên quan, bao gồm tám danh mục thực thể opioid chính. Hơn nữa, chúng tôi phân tích các thách thức về ngôn ngữ trong các cuộc thảo luận liên quan đến opioid, chẳng hạn như tiếng lóng, sự mơ hồ, câu rời rạc và ngôn ngữ mang tính cảm xúc. Chúng tôi đề xuất một hệ thống giám sát thời gian thực tích hợp học máy, học sâu, mô hình ngôn ngữ dựa trên Transformer và nhúng ngữ cảnh nâng cao. Trong 11 thí nghiệm được tiến hành với xác thực chéo 5 lần, các mô hình dựa trên Transformer như bert-base-NER và roberta-base đạt độ chính xác 97% và điểm F1, hiệu suất tốt hơn 10,23% so với mô hình cơ sở (RF = 0,88).

Takeaways, Limitations

Takeaways:
Trình bày khả năng phát triển hệ thống giám sát và phòng ngừa khủng hoảng quá liều opioid bằng cách sử dụng dữ liệu mạng xã hội.
Chứng minh hiệu quả của việc trích xuất và phân tích thông tin liên quan đến opioid thông qua việc xây dựng bộ dữ liệu ONER-2025 và ứng dụng các kỹ thuật NLP.
Hiệu suất vượt trội của các mô hình dựa trên máy biến áp chứng minh tiềm năng cải thiện độ chính xác của các hệ thống giám sát thời gian thực.
Đề Xuất hướng nghiên cứu trong tương lai thông qua phân tích các đặc điểm ngôn ngữ liên quan đến thuốc phiện.
Limitations:
Nhu cầu xem xét lại sự thiên vị và khả năng khái quát hóa dữ liệu Reddit.
Cần có thêm nghiên cứu về ứng dụng thực tế và hiệu quả của hệ thống giám sát thời gian thực.
Hiệu suất mô hình có thể bị suy giảm do hạn chế về kích thước và tính đa dạng của tập dữ liệu.
Cần nghiên cứu thêm để khám phá khả năng áp dụng của nghiên cứu này vào các nền tảng truyền thông xã hội hoặc nguồn dữ liệu khác.
👍