본 논문은 야생 동물 불법 거래 분석을 위한 데이터 과학 파이프라인에서 중요한 과제인 분류기를 위한 고품질 라벨링 데이터 생성 문제를 해결하는 방법을 제시합니다. 온라인 전자상거래 플랫폼을 통한 야생 동물 제품 판매 증가로 인해 불법 거래 추적의 어려움이 커지고 있는데, 이를 해결하기 위해 대규모 언어 모델(LLM)을 활용하여 비용 효율적인 방식으로 광고 데이터에 대한 의사 라벨을 생성하고, 이를 통해 특수 분류 모델을 만드는 전략을 제안합니다. 소량의 데이터에 대한 의사 라벨을 생성하고 이를 활용하여 다양하고 대표적인 샘플을 자동으로 수집함으로써 라벨링 비용을 최소화합니다. 실험 결과, 제안된 방법은 최대 95%의 F1 점수를 달성하여 기존 LLM보다 낮은 비용으로 더 나은 성능을 보였으며, 야생 동물 불법 거래의 다양한 측면 분석에 효과적임을 실제 사례를 통해 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델을 활용하여 야생 동물 불법 거래 관련 광고 데이터 라벨링 비용을 효과적으로 절감할 수 있는 새로운 방법 제시.
◦
다양하고 대표적인 데이터 샘플을 자동으로 수집하여 분류기 성능 향상.
◦
높은 정확도(최대 95% F1 score)를 달성하여 야생 동물 불법 거래 분석에 실질적인 도움 제공.