Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ChineseHarm-Bench: Điểm chuẩn phát hiện nội dung độc hại của Trung Quốc

Created by
  • Haebom

Tác giả

Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng

Phác thảo

Bài báo này trình bày một chuẩn mực toàn diện, được chú thích chuyên môn để phát hiện nội dung độc hại bằng tiếng Trung. Do các nguồn lực phát hiện nội dung độc hại hiện có tập trung vào tiếng Anh, trong khi các tập dữ liệu tiếng Trung còn khan hiếm và hạn chế về phạm vi, chúng tôi phát triển một chuẩn mực bao gồm sáu loại dữ liệu thực tế tiêu biểu. Thông qua quá trình chú thích, chúng tôi tạo ra một cơ sở quy tắc kiến thức chuyên gia để hỗ trợ phát hiện nội dung độc hại bằng tiếng Trung trong các LLM. Sau đó, chúng tôi đề xuất một mô hình cơ sở tăng cường kiến thức, tích hợp các quy tắc kiến thức do con người chú thích với kiến thức ngầm định của LLM, cho phép một mô hình nhỏ đạt được hiệu suất tương đương với các LLM tiên tiến. Mã và dữ liệu có sẵn tại https://github.com/zjunlp/ChineseHarm-bench .

Takeaways, Limitations

Takeaways:
Góp phần giải quyết vấn đề thiếu hụt dữ liệu trong lĩnh vực phát hiện nội dung độc hại của Trung Quốc.
ĐẩY nhanh tiến độ nghiên cứu bằng cách cung cấp các chuẩn mực quy mô lớn dựa trên dữ liệu thực tế.
Cải thiện hiệu suất LLM bằng cách trình bày các mô hình tham chiếu dựa trên quy tắc kiến thức chuyên môn và tăng cường kiến thức.
Đề Xuất khả năng cải thiện hiệu suất của các mô hình quy mô nhỏ.
Limitations:
Các danh mục chuẩn có thể được giới hạn ở sáu danh mục.
Mặc dù dựa trên dữ liệu thực tế, vẫn cần xem xét thêm về độ lệch dữ liệu và khả năng khái quát hóa.
Cần có thêm nghiên cứu về hiệu suất tổng quát của mô hình cơ sở tăng cường kiến thức được đề xuất.
Cần nghiên cứu thêm về các loại nội dung có hại khác nhau và các phương ngữ tiếng Trung khác nhau.
👍