Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Cost-Effective LLM-based Approach to Identify Wildlife Trafficking in Online Marketplaces

Created by
  • Haebom
Category
Empty

저자

Juliana Barbosa, Ulhas Gondhali, Gohar Petrossian, Kinshuk Sharma, Sunandan Chakraborty, Jennifer Jacquet, Juliana Freire

개요

본 논문은 야생 동물 불법 거래 분석을 위한 데이터 과학 파이프라인에서 중요한 과제인 분류기를 위한 고품질 라벨링 데이터 생성 문제를 해결하는 방법을 제시합니다. 온라인 전자상거래 플랫폼을 통한 야생 동물 제품 판매 증가로 인해 불법 거래 추적의 어려움이 커지고 있는데, 이를 해결하기 위해 대규모 언어 모델(LLM)을 활용하여 비용 효율적인 방식으로 광고 데이터에 대한 의사 라벨을 생성하고, 이를 통해 특수 분류 모델을 만드는 전략을 제안합니다. 소량의 데이터에 대한 의사 라벨을 생성하고 이를 활용하여 다양하고 대표적인 샘플을 자동으로 수집함으로써 라벨링 비용을 최소화합니다. 실험 결과, 제안된 방법은 최대 95%의 F1 점수를 달성하여 기존 LLM보다 낮은 비용으로 더 나은 성능을 보였으며, 야생 동물 불법 거래의 다양한 측면 분석에 효과적임을 실제 사례를 통해 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델을 활용하여 야생 동물 불법 거래 관련 광고 데이터 라벨링 비용을 효과적으로 절감할 수 있는 새로운 방법 제시.
다양하고 대표적인 데이터 샘플을 자동으로 수집하여 분류기 성능 향상.
높은 정확도(최대 95% F1 score)를 달성하여 야생 동물 불법 거래 분석에 실질적인 도움 제공.
다양한 측면의 야생 동물 불법 거래 분석을 가능하게 함.
한계점:
제안된 방법의 성능은 사용된 LLM 및 데이터의 특성에 따라 달라질 수 있음.
LLM 의사 라벨의 정확도에 따라 최종 분류기 성능이 영향을 받을 수 있음.
새로운 유형의 광고 또는 새로운 플랫폼이 등장할 경우, 모델 재훈련이 필요할 수 있음.
대규모 데이터셋에 대한 일반화 성능 검증이 추가적으로 필요할 수 있음.
👍