본 논문은 소셜 미디어의 유해 콘텐츠 확산을 해결하기 위해 대규모 언어 모델 (LLM)을 사용한 설명 가능한 콘텐츠 관리를 위한 데이터 효율적인 2단계 프레임워크인 SMARTER를 소개합니다. SMARTER는 LLM의 자체 출력을 활용하여 정확하고 부정확한 레이블 모두에 대한 합성 설명을 생성하여 최소한의 인간 감독으로 선호도 최적화를 통해 정렬합니다. 2단계에서는 교차 모델 훈련을 통해 설명 품질을 개선하여 더 약한 모델이 더 강력한 모델과 스타일 및 의미론적으로 정렬될 수 있도록 합니다. HateXplain, Latent Hate, Implicit Hate의 세 가지 벤치마크 작업에 대한 실험 결과 SMARTER가 표준 소수 샷 기준선보다 최대 13.5%의 macro-F1 개선을 달성하고 전체 훈련 데이터의 일부만 사용함을 보여줍니다. 이 프레임워크는 분류 및 설명 모두에 대한 LLM의 자체 개선 기능을 활용하여 저자원 환경에 대한 확장 가능한 전략을 제공합니다.