最近の音響事象検出(SED)システムはクジラの音を検出することができるが、誤検出および少数クラスの検出に関する問題が続いている。本論文では、既存の軽量SEDシステムを拡張する境界提案ネットワーク(BPN)を提案する。 BPNは、画像オブジェクト検出研究に触発され、最終出力ゲートのためにバックボーン分類モデル内で計算された中間潜在表現を使用することによって誤検出を減らすことを目的としています。 BPNを既存のSEDシステムに追加すると、精度が16.8%絶対に増加し、少数クラスd-callおよびbp-callのF1スコアがそれぞれ21.3%および9.4%向上します。さらに、ポストプロセッシングハイパーパラメータの選択のために、順方向検索と逆方向検索の2つのアプローチを検討しました。イベントレベルとフレームレベルハイパーパラメータを別々に最適化することによって、これら2つのアプローチは経験的な方法を使用して選択されたパラメータよりも大幅なパフォーマンス向上をもたらします。完全なWhaleVAD-BPNシステムは、クロス検証された開発F1スコア0.475を達成し、ベースラインより9.8%絶対に向上しました。