Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Opioid Named Entity Recognition (ONER-2025) from Reddit

Created by
  • Haebom

저자

Muhammad Ahmad, Humaira Farid, Iqra Ameer, Muhammad Muzamil, Ameer Hamza Muhammad Jalal, Ildar Batyrshin, Grigori Sidorov

개요

본 논문은 미국에서 심각한 공중보건 문제로 대두되고 있는 오피오이드 과다복용 사태에 대한 해결책으로, Reddit과 같은 소셜 미디어 플랫폼에서 얻은 비정형 데이터를 활용하여 오피오이드 사용에 대한 대중의 인식, 논의 및 경험에 대한 통찰력을 제공하는 연구이다. 자체적으로 주석을 단 Reddit 데이터셋을 사용하여 자연어 처리(NLP), 특히 오피오이드 명명된 개체 인식(ONER-2025)을 활용하여 정보를 추출한다. 이 연구는 수동으로 주석이 달린 Reddit 데이터셋(331,285 토큰, 8가지 주요 오피오이드 개체 범주 포함)을 생성하고, 주석 과정 및 어려움을 자세히 설명하며, 오피오이드 관련 논의에서 나타나는 언어적 어려움(속어, 모호성, 단편적인 문장, 감정적으로 자극적인 언어 등)을 분석하고, 소셜 미디어, 의료 기록 및 응급 서비스 데이터를 처리하여 과다복용 사건을 식별하는 실시간 모니터링 시스템을 제안한다. 11개의 실험과 5-fold 교차 검증을 통해 기계 학습, 심층 학습 및 트랜스포머 기반 언어 모델을 통합하여 정확도와 F1 점수 97%를 달성하였으며, 기준 모델보다 10.23% 향상(RF=0.88)된 성능을 보였다.

시사점, 한계점

시사점:
Reddit과 같은 소셜 미디어 데이터를 활용하여 오피오이드 과다복용 문제에 대한 실시간 모니터링 및 분석이 가능함을 보여줌.
개발된 ONER-2025 시스템은 높은 정확도를 통해 효과적인 오피오이드 관련 정보 추출을 제공함.
트랜스포머 기반 모델의 우수한 성능을 통해 오피오이드 관련 언어적 어려움을 효과적으로 해결할 수 있음을 시사함.
실시간 모니터링 시스템을 통해 신속한 대응 및 예방 조치가 가능해짐.
한계점:
Reddit 데이터는 특정 사용자 집단의 의견만을 반영할 수 있으며, 전체 인구를 대표하지 않을 수 있음.
사용된 데이터셋의 크기와 범위가 연구 결과의 일반화 가능성에 영향을 미칠 수 있음.
실시간 모니터링 시스템의 성능은 데이터의 품질 및 양에 의존적임.
속어, 모호성 등의 언어적 어려움을 완벽하게 해결하지 못할 가능성이 있음.
👍