Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ChineseHarm-Bench: Điểm chuẩn phát hiện nội dung độc hại của Trung Quốc

Created by
  • Haebom

Tác giả

Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng

Phác thảo

Bài báo này trình bày một chuẩn mực toàn diện, được chú thích chuyên môn để phát hiện nội dung độc hại bằng tiếng Trung. Để giải quyết những thách thức của việc các nguồn lực phát hiện nội dung độc hại hiện có tập trung vào tiếng Anh, trong khi các tập dữ liệu tiếng Trung còn khan hiếm và hạn chế về phạm vi, chúng tôi phát triển một chuẩn mực kết hợp sáu loại dữ liệu thực tế tiêu biểu. Thông qua quá trình chú thích, chúng tôi thiết lập một cơ sở quy tắc kiến thức chuyên gia để hỗ trợ phát hiện nội dung độc hại bằng tiếng Trung trong các chương trình LLM. Sau đó, chúng tôi đề xuất một mô hình cơ sở tăng cường kiến thức, tích hợp các quy tắc kiến thức do con người chú thích với kiến thức ngầm định của các chương trình LLM, cho phép một mô hình nhỏ đạt được hiệu suất tương đương với các chương trình LLM tiên tiến. Mã và dữ liệu có sẵn tại https://github.com/zjunlp/ChineseHarm-bench .

Takeaways, Limitations

Takeaways:
Góp phần giải quyết vấn đề thiếu hụt dữ liệu trong lĩnh vực phát hiện nội dung độc hại của Trung Quốc.
Cung cấp các tiêu chuẩn đánh giá trên quy mô lớn, đa danh mục dựa trên dữ liệu thực tế.
Đề Xuất khả năng cải thiện hiệu suất của LLM bằng cách tận dụng cơ sở quy tắc kiến thức chuyên môn.
Đề Xuất khả năng cải thiện hiệu suất của các mô hình quy mô nhỏ thông qua các kỹ thuật tăng cường kiến thức.
Chúng tôi hy vọng rằng mã và dữ liệu được công bố sẽ thúc đẩy nghiên cứu tiếp theo.
Limitations:
Các danh mục chuẩn có thể được giới hạn ở sáu danh mục.
Có thể không phản ánh đầy đủ sự đa dạng của nội dung có hại trong thế giới thực.
Cần có thêm nghiên cứu về hiệu suất tổng quát của kỹ thuật tăng cường kiến thức được đề xuất.
Những hạn chế về khả năng khái quát hóa của kết quả nghiên cứu, bị giới hạn trong một ngôn ngữ cụ thể (tiếng Trung).
👍