Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

$\Texttt{Droid}$: Bộ tài nguyên để phát hiện mã do AI tạo ra

Created by
  • Haebom

Tác giả

Daniil Orel, Indraneil Paul, Iryna Gurevych, Preslav Nakov

Phác thảo

Trong bài báo này, chúng tôi trình bày $\textbf{$\texttt{DroidCollection}$}$, bộ dữ liệu mở rộng lớn nhất dùng để huấn luyện và đánh giá các bộ phát hiện mã do máy tạo ra. $\texttt{DroidCollection}$ chứa hơn một triệu mẫu mã, bảy ngôn ngữ lập trình, 43 đầu ra mô hình mã hóa và ít nhất ba miền mã hóa thực tế. Ngoài các mẫu hoàn toàn do AI tạo ra, nó còn bao gồm mã do con người đồng tác giả và các mẫu đối kháng được tạo ra một cách rõ ràng để tránh bị phát hiện. Sau đó, chúng tôi phát triển $\textbf{$\texttt{DroidDetect}$}$, một bộ các bộ phát hiện dành riêng cho bộ mã hóa được huấn luyện trên các mục tiêu đa tác vụ bằng $\texttt{DroidCollection}$. Kết quả thử nghiệm chứng minh rằng hiệu suất của các bộ phát hiện hiện có không thể khái quát hóa vượt ra ngoài tập dữ liệu huấn luyện hẹp cho các miền mã hóa và ngôn ngữ lập trình đa dạng. Hơn nữa, trong khi hầu hết các bộ dò dễ bị ảnh hưởng bởi việc nhân bản hóa phân phối đầu ra bằng các phương pháp căn chỉnh và nhắc nhở hời hợt, chúng tôi chứng minh rằng việc huấn luyện với một lượng nhỏ dữ liệu đối nghịch có thể dễ dàng giải quyết vấn đề này. Cuối cùng, chúng tôi chứng minh tính hiệu quả của việc học số liệu và lấy mẫu lại dựa trên sự không chắc chắn như một phương tiện cải thiện việc huấn luyện bộ dò trong các phân phối có khả năng gây nhiễu.

Takeaways, Limitations

_____T32483____-:
Cung cấp một tập dữ liệu mở lớn ($\texttt{DroidCollection}$) để đào tạo và đánh giá các trình phát hiện mã do máy tạo ra.
Chúng tôi giới thiệu một công cụ phát hiện mới ($\texttt{DroidDetect}$) để cải thiện hiệu suất tổng quát trên nhiều miền và ngôn ngữ lập trình khác nhau.
Một phương pháp cải thiện độ mạnh mẽ của máy dò bằng cách sử dụng các ví dụ đối nghịch được trình bày.
Một phương pháp cải thiện hiệu suất máy dò thông qua học số liệu và lấy mẫu lại dựa trên sự không chắc chắn được trình bày.
Limitations:
Mặc dù dữ liệu của $\texttt{DroidCollection}$ rất đa dạng, nhưng nó có thể không bao phủ hoàn toàn tất cả các ngôn ngữ lập trình và miền mã hóa trong thế giới thực.
Hiệu suất của bộ phát hiện được đề xuất phụ thuộc vào tập dữ liệu được sử dụng và có thể dễ bị tấn công bởi các loại mô hình tạo mã mới hoặc các cuộc tấn công đối nghịch.
Cần nghiên cứu thêm về việc tạo ra ví dụ đối kháng và chiến lược phòng thủ.
👍