Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

$\Texttt{Droid}$: Bộ tài nguyên để phát hiện mã do AI tạo ra

작성자
  • Haebom

Tác giả

Daniil Orel, Indraneil Paul, Iryna Gurevych, Preslav Nakov

Phác thảo

Trong bài báo này, chúng tôi trình bày DroidCollection , bộ dữ liệu mở toàn diện nhất dùng để huấn luyện và đánh giá các bộ phát hiện mã do máy tạo ra . DroidCollection chứa hơn một triệu mẫu mã, bảy ngôn ngữ lập trình, 43 đầu ra mô hình mã hóa và ít nhất ba miền mã hóa thực tế. Ngoài các mẫu hoàn toàn do AI tạo ra, nó còn bao gồm mã do con người và AI đồng viết, cũng như các mẫu đối nghịch được tạo ra một cách rõ ràng để tránh bị phát hiện. Sau đó, chúng tôi phát triển DroidDetect , một bộ các bộ phát hiện dành riêng cho bộ mã hóa được huấn luyện trên các mục tiêu đa tác vụ bằng DroidCollection . Kết quả thử nghiệm chứng minh rằng hiệu suất của các bộ phát hiện hiện tại không thể khái quát hóa vượt ra ngoài tập dữ liệu huấn luyện hẹp cho các miền mã hóa và ngôn ngữ lập trình đa dạng. Hơn nữa, trong khi hầu hết các bộ phát hiện có thể dễ dàng bị ảnh hưởng bởi việc nhân bản hóa phân phối đầu ra bằng cách sử dụng các phương pháp nhắc nhở và căn chỉnh hời hợt, chúng tôi chứng minh rằng việc huấn luyện với một lượng nhỏ dữ liệu đối nghịch có thể dễ dàng giải quyết vấn đề này. Cuối cùng, chúng tôi chứng minh rằng học số liệu và lấy mẫu lại dựa trên sự không chắc chắn là những phương pháp hiệu quả để cải thiện việc huấn luyện bộ phát hiện trong các phân phối có khả năng bị nhiễu.

Takeaways, Limitations

Takeaways:
Cung cấp bộ dữ liệu mở quy mô lớn (DroidCollection) để đào tạo và đánh giá các trình phát hiện mã do máy tạo ra.
Giải quyết vấn đề về hiệu suất tổng quát kém của các bộ phát hiện hiện có trên nhiều miền mã hóa và ngôn ngữ lập trình khác nhau.
Đề Xuất khả năng cải thiện hiệu suất của máy dò bằng cách sử dụng các ví dụ đối nghịch.
Thể hiện hiệu quả của việc học số liệu và các kỹ thuật lấy mẫu lại dựa trên sự không chắc chắn.
Limitations:
Mặc dù DroidCollection rất đa dạng, nhưng nó có thể không bao gồm đầy đủ tất cả các ngôn ngữ lập trình và lĩnh vực mã hóa trong thế giới thực.
Phương pháp tạo ví dụ đối kháng được đề xuất có thể không bao gồm tất cả các loại kỹ thuật trốn tránh.
Hiệu quả của kỹ thuật học số liệu và lấy mẫu lại dựa trên sự không chắc chắn có thể khác nhau tùy thuộc vào phân phối dữ liệu.
👍