LLM-guided Semi-Supervised Approaches for Social Media Crisis Data Classification

작성자

Haebom

카테고리

Empty

저자

Jacob Ativo, Bharaneeshwar Balasubramaniyam, Anh Tran, Khushboo Gupta, Hongmin Li, Doina Caragea, Cornelia Caragea

💡 개요

본 연구는 재난 상황 시 소셜 미디어 데이터를 효과적으로 분류하기 위해 대규모 언어 모델(LLM)을 활용한 준지도 학습 방법을 처음으로 실증적으로 평가합니다. LLM 기반 준지도 학습 방법인 VerifyMatch와 LLM guided Co-Training (LG-CoTrain)을 기존 준지도 학습 기법들과 비교한 결과, LG-CoTrain이 특히 적은 양의 레이블 데이터(클래스당 5, 10, 25개)를 가진 저자원 환경에서 뛰어난 성능을 보였습니다. 이는 LLM의 지식을 활용하여 작고 배포 가능한 모델을 구축할 수 있는 가능성을 제시합니다.

🔑 시사점 및 한계

•

LLM을 활용한 준지도 학습 방법(특히 LG-CoTrain)은 저자원 환경에서 소셜 미디어 위기 데이터 분류 성능을 크게 향상시킬 수 있습니다.

•

준지도 학습을 통해 LLM의 지식을 소형 모델로 효과적으로 이전하여 실제 재난 대응 애플리케이션에 적용할 수 있습니다.

•

레이블 데이터가 많아질수록 LLM 기반 방법과 기존 준지도 학습 방법 간의 성능 격차가 줄어들며, Self-Training과 같은 기법이 강력한 기준선이 될 수 있습니다.

•

향후 연구에서는 LLM 자체의 zero-shot 성능을 능가하는 소형 준지도 학습 모델 구축 가능성을 더욱 탐색하고, 다양한 재난 시나리오 및 데이터셋에 대한 일반화 성능을 평가할 필요가 있습니다.

PDF 보기

Made with Slashpage