Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Created by
  • Haebom

作者

Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Zixuan Li, Qiwei Liang, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Liilun Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu

概要

RoboTwin 2.0は、スケーラブルなダブルアーム操作のための大規模で多様で現実的なデータ生成フレームワークです。既存のデータセットの限界(拡張可能なタスクの作成方法が不足し、過度に単純化されたシミュレーション環境)を克服するために、731個のオブジェクトインスタンス(147カテゴリ)を含むRoboTwin-ODオブジェクトライブラリに基づいて、マルチモーダル言語モデル(MLLM)とシミュレーションベースの改善を活用したエキスパートデータ合成パイプラインを設計しました。 5つの軸(乱れ、照明、背景、テーブルの高さ、言語)にわたって構造化ドメインランダム化を適用して、シミュレーション - 実際の遷移を改善し、データの多様性とポリシーの堅牢性を高めました。 50個の二重腕作業と5個のロボットモデルに適用し、コード生成成功率10.9%向上、合成データと10個の実デモを使ったVLAモデル学習時の367%の相対性能向上、合成データのみで学習されたゼロショットモデルで228%の性能向上を達成しました。データジェネレータ、ベンチマーク、データセット、およびコードを公開し、スケーラブルで堅牢なデュアルアーム操作研究をサポートします。

Takeaways、Limitations

Takeaways:
スケーラブルなダブルアーム操作のための大規模で多様で現実的な合成データ生成フレームワークを提供します。
マルチモーダル言語モデルとシミュレーションベースの改善による効率的なタスク生成パイプラインの提示
構造化ドメインランダム化によるシミュレーション - 実際の遷移性能の向上と環境の変化に対する堅牢性の確保
合成データを活用した効果的なポリシー学習とゼロショットパフォーマンスの向上。
データジェネレータ、ベンチマーク、データセット、およびコード開示による研究の共有と拡張性の提供
Limitations:
現在サポートされているロボットモデルと作業の多様性は限られている可能性があります。
実際の環境との完全な一致は困難であり、実際の環境を適用するときに追加の調整が必要になる場合があります。
MLLMのパフォーマンスによっては、データ生成の質が影響を受ける可能性があります。
構造化ドメインランダム化の範囲をさらに拡張する必要がある。
👍