Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

Created by
  • Haebom

作者

Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng

概要

本論文は、中国語の有害コンテンツの検出に関する包括的かつ専門的に注釈付きのベンチマークを提示します。既存の有害コンテンツ検出リソースは英語に集中しており、中国語のデータセットが不足しており、範囲が制限されているという問題を解決するために、実際のデータで構成される6つの代表的なカテゴリを含むベンチマークを開発しました。注釈プロセスを通じて、LLMsの中国語有害コンテンツ検出支援のための専門家知識ルール基盤を構築し、人間が注釈した知識ルールとLLMsの暗黙的知識を統合する知識増強基準モデルを提案し、小規模モデルが最先端LLMsと同様の性能を達成するようにします。コードとデータはhttps://github.com/zjunlp/ChineseHarm-benchで利用できます。

Takeaways、Limitations

Takeaways:
中国語有害コンテンツ検出分野におけるデータ不足の問題解決に寄与
実際のデータファンデーションの大規模で多様なカテゴリを含むベンチマークを提供します。
専門家の知識ルールベースを活用したLLMの性能向上の可能性を提示
知識増強技術による小規模モデルの性能向上の可能性の提示
公開されたコードとデータによる後続の研究の活性化の期待。
Limitations:
ベンチマークのカテゴリは6つに限定されます。
実世界の有害コンテンツの多様性を完全に反映できない可能性。
提案された知識強化技術の一般化性能に関するさらなる研究の必要性
特定の言語(中国語)に限定された研究結果の一般化可能性の制限。
👍