この論文は、視覚強化学習(RL)の困難を解決するために、セグメンテーションベースのアクタークリティカルな方法であるSegDACを提案します。 SegDACは、オブジェクト中心分解のためにSegment Anything(SAM)を使用し、テキスト入力による画像セグメンテーションを処理するためにYOLO-Worldを使用します。動的数のセグメントをサポートする新しいコンバータベースのアーキテクチャを特徴とし、人間のラベルなしでオンラインRLを使用して集中すべきセグメントを効果的に学習します。 Maniskill3ベンチマークを介してSegDACを評価した結果、SegDACは視覚的な一般化で著しいパフォーマンス向上を示しました。