Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
ChineseHarm-Bench: Điểm chuẩn phát hiện nội dung độc hại của Trung Quốc
Created by
Haebom
Tác giả
Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
Phác thảo
Bài báo này trình bày một chuẩn mực toàn diện, được chú thích chuyên môn để phát hiện nội dung độc hại bằng tiếng Trung. Để giải quyết những thách thức của việc các nguồn lực phát hiện nội dung độc hại hiện có tập trung vào tiếng Anh, trong khi các tập dữ liệu tiếng Trung còn khan hiếm và hạn chế về phạm vi, chúng tôi phát triển một chuẩn mực kết hợp sáu loại dữ liệu thực tế tiêu biểu. Thông qua quá trình chú thích, chúng tôi thiết lập một cơ sở quy tắc kiến thức chuyên gia để hỗ trợ phát hiện nội dung độc hại bằng tiếng Trung trong các chương trình LLM. Sau đó, chúng tôi đề xuất một mô hình cơ sở tăng cường kiến thức, tích hợp các quy tắc kiến thức do con người chú thích với kiến thức ngầm định của các chương trình LLM, cho phép một mô hình nhỏ đạt được hiệu suất tương đương với các chương trình LLM tiên tiến. Mã và dữ liệu có sẵn tại https://github.com/zjunlp/ChineseHarm-bench .