Sign In

Toxicity Detection towards Adaptability to Changing Perturbations

Created by
  • Haebom
Category
Empty

저자

Hankun Kang, Jianhao Chen, Yongqi Li, Xin Miao, Mayi Xu, Ming Zhong, Yuanyuan Zhu, Tieyun Qian

개요

본 논문은 기존 독성 감지 방법들이 진화하는 교란 패턴에 취약하다는 문제점을 제기하며, 지속적인 학습을 통한 교란 패턴 탈옥 문제를 독성 감지 분야에 새롭게 도입합니다. 9가지 교란 패턴(기존 7가지 + 새롭게 개발한 2가지)으로 구성된 새로운 데이터셋을 구축하고, 제로샷 및 미세 조정된 교차 패턴 감지를 통해 기존 방법들의 취약성을 검증합니다. 이를 해결하기 위해 도메인 증분 학습 패러다임과 벤치마크를 제시하여 동적으로 등장하는 교란된 독성 텍스트 유형에 대한 검출기의 강건성을 확보하고자 합니다. 코드와 데이터셋은 GitHub에 공개될 예정입니다.

시사점, 한계점

시사점:
진화하는 교란 패턴에 강건한 독성 감지 모델 개발의 필요성을 강조합니다.
새로운 데이터셋과 벤치마크를 제공하여 관련 연구에 기여합니다.
도메인 증분 학습 패러다임을 독성 감지에 적용하는 새로운 접근 방식을 제시합니다.
GitHub 공개를 통한 연구 공동체의 참여를 유도합니다.
한계점:
제시된 9가지 교란 패턴이 모든 실제 교란 패턴을 포괄하지 못할 수 있습니다.
도메인 증분 학습의 성능은 새로운 교란 패턴의 특성에 따라 달라질 수 있습니다.
실제 환경에서의 성능 평가가 추가적으로 필요합니다.
👍