ToxSyn은 포르투갈어를 대상으로 하는 대규모 멀티 레이블 혐오 발언 감지 코퍼스입니다. 9개의 보호 소수자 집단을 대상으로 하며, 독성 언어의 수사적 전략을 포착하기 위해 담론 유형 주석을 포함합니다. 다른 공개 데이터 세트에서 누락된 비독성 반례를 체계적으로 포함하고 있습니다. 실험 결과 소셜 미디어 도메인과 ToxSyn 간에 상호 일반화 실패가 발생하여, 모델이 소셜 미디어에서 훈련된 경우 소수자 관련 맥락에 일반화하는 데 어려움을 겪고, 반대의 경우도 마찬가지임을 밝혔습니다.