Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SMARTER: A Data-efficient Framework to Improve Toxicity Detection with Explanation via Self-augmenting Large Language Models

Created by
  • Haebom

저자

Huy Nghiem, Advik Sachdeva, Hal Daume III

SMARTER: 설명 가능한 콘텐츠 관리를 위한 데이터 효율적인 프레임워크

개요

본 논문은 소셜 미디어의 유해 콘텐츠 확산을 해결하기 위해 대규모 언어 모델 (LLM)을 사용한 설명 가능한 콘텐츠 관리를 위한 데이터 효율적인 2단계 프레임워크인 SMARTER를 소개합니다. SMARTER는 LLM의 자체 출력을 활용하여 정확하고 부정확한 레이블 모두에 대한 합성 설명을 생성하여 최소한의 인간 감독으로 선호도 최적화를 통해 정렬합니다. 2단계에서는 교차 모델 훈련을 통해 설명 품질을 개선하여 더 약한 모델이 더 강력한 모델과 스타일 및 의미론적으로 정렬될 수 있도록 합니다. HateXplain, Latent Hate, Implicit Hate의 세 가지 벤치마크 작업에 대한 실험 결과 SMARTER가 표준 소수 샷 기준선보다 최대 13.5%의 macro-F1 개선을 달성하고 전체 훈련 데이터의 일부만 사용함을 보여줍니다. 이 프레임워크는 분류 및 설명 모두에 대한 LLM의 자체 개선 기능을 활용하여 저자원 환경에 대한 확장 가능한 전략을 제공합니다.

시사점, 한계점

시사점:
LLM을 활용하여 유해 콘텐츠 관리의 성능을 향상시킴
소량의 데이터를 사용하여 우수한 성능을 달성하는 데이터 효율적인 프레임워크 제시
설명 가능성을 통해 모델의 의사 결정 과정을 이해할 수 있도록 함
저자원 환경에서 효과적인 콘텐츠 관리를 위한 확장 가능한 전략 제공
한계점:
논문 내용에 공격적인 자료가 포함될 수 있음
제시된 프레임워크의 일반화 능력에 대한 추가적인 연구가 필요할 수 있음
모델의 성능은 사용된 LLM의 성능에 의존할 수 있음
👍