Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling

Created by
  • Haebom

作者

Jesse van Remmerden, Zaharah Bukhsh, Yingqian Zhang

概要

この論文では、ワークショップスケジューリング問題(JSSP)へのオフライン強化学習アプローチであるOffline Learned Dispatching(Offline-LD)を提案します。既存のオンライン強化学習方式のLimitationsであるサンプルの非効率性、既存の技法の活用不可能、複雑な環境でのシミュレーション困難を解決するため、既存のスケジューリングデータを活用して学習するオフライン方式を採用しました。 Maskable Quantile Regression DQN(mQRDQN)と discrete maskable Soft Actor-Critic(d-mSAC)のマスク可能なバリエーションを使用し、Conservative Q-Learning(CQL)と新しいエントロピーボーナス修正、補償正規化手法を導入しました.実験の結果、Offline-LDは限られた専門家ソリューション(CPで生成された100個のソリューション)だけでもオンライン強化学習を凌駕する性能を示し、ノイズが追加されたデータセットでも優れた性能を示し、実際の環境適用可能性を高めました。

Takeaways、Limitations

Takeaways:
既存のオンライン強化学習の限界を克服するオフライン強化学習ベースのJSSP解決策を提示
既存の専門家ソリューション(CPなど)を活用して学習効率を向上
ノイズを含む実際のデータを活用する可能性を提示
限られたデータでもオンラインRLより優れた性能を実現
Limitations:
提案された方法の性能がデータの質に大きく依存する可能性がある(データ品質の明確な分析の欠如)
さまざまな種類のJSSP問題に対する一般化パフォーマンス検証が必要
大規模な実データセットを使用した実験結果の欠如
他のオフライン強化学習技術との比較分析が不足
👍