본 논문은 미국에서 심각한 공중보건 문제로 대두되고 있는 오피오이드 과다복용 사태에 대한 해결책으로, Reddit과 같은 소셜 미디어 플랫폼에서 얻은 비정형 데이터를 활용하여 오피오이드 사용에 대한 대중의 인식, 논의 및 경험에 대한 통찰력을 제공하는 연구이다. 자체적으로 주석을 단 Reddit 데이터셋을 사용하여 자연어 처리(NLP), 특히 오피오이드 명명된 개체 인식(ONER-2025)을 활용하여 정보를 추출한다. 이 연구는 수동으로 주석이 달린 Reddit 데이터셋(331,285 토큰, 8가지 주요 오피오이드 개체 범주 포함)을 생성하고, 주석 과정 및 어려움을 자세히 설명하며, 오피오이드 관련 논의에서 나타나는 언어적 어려움(속어, 모호성, 단편적인 문장, 감정적으로 자극적인 언어 등)을 분석하고, 소셜 미디어, 의료 기록 및 응급 서비스 데이터를 처리하여 과다복용 사건을 식별하는 실시간 모니터링 시스템을 제안한다. 11개의 실험과 5-fold 교차 검증을 통해 기계 학습, 심층 학습 및 트랜스포머 기반 언어 모델을 통합하여 정확도와 F1 점수 97%를 달성하였으며, 기준 모델보다 10.23% 향상(RF=0.88)된 성능을 보였다.