この論文では、機械生成コード検出器を訓練し評価するための最も広範なオープンデータセットであるDroidCollectionを紹介します。 DroidCollectionには、100万を超えるコードサンプル、7つのプログラミング言語、43のコーディングモデル出力、および3つ以上の実際のコーディングドメインが含まれています。完全にAIによって生成されたサンプルに加えて、人とAIが共同で作成したコードと検出を回避するように明示的に作成された敵対的なサンプルも含まれています。続いて、論文では、 DroidCollectionを使用して、マルチタスク目標で訓練されたエンコーダ専用の検出器のコレクションであるDroidDetectを開発します。実験の結果,従来の検出器の性能は,狭い訓練データ外の様々なコーディングドメインとプログラミング言語に一般化されないことを示した。さらに、ほとんどの検出器は、表面的なプロンプトとアライメントアプローチを使用して出力分布を人間化することによって容易に損傷する可能性がありますが、少量の敵対データでトレーニングすることでこの問題を簡単に解決できることを示しています。最後に、メトリック学習と不確実性ベースの再サンプリングが、ノイズがある可能性がある分布で検出器トレーニングを向上させる効果的な方法であることを示しています。