Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RoboTwin 2.0: Un generador de datos escalable y un punto de referencia con una sólida aleatorización de dominios para una manipulación robótica bimanual robusta

Created by
  • Haebom

Autor

Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Zixuan Li, Qiwei Liang, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu

Describir

RoboTwin 2.0 es un marco de generación de datos a gran escala, diverso y realista para la manipulación escalable de dos brazos. Para superar las limitaciones de los conjuntos de datos existentes (falta de métodos escalables de generación de tareas y entornos de simulación excesivamente simplificados), diseñamos una canalización experta de síntesis de datos que utiliza un modelo de lenguaje multimodal (MLLM) y refinamiento basado en simulación, basado en la biblioteca de objetos RoboTwin-OD, que contiene 731 instancias de objetos (147 categorías). Aplicamos aleatorización estructurada de dominios en cinco ejes (desorden, iluminación, fondo, altura de la mesa e idioma) para mejorar la transferencia de la simulación a la realidad, así como la diversidad de datos y la robustez de las políticas. Al aplicar este marco a 50 tareas de dos brazos y cinco modelos de robot, logramos una mejora del 10,9 % en la tasa de éxito de la generación de código, una mejora relativa del 367 % en el rendimiento al entrenar un modelo VLA con datos sintéticos y 10 demostraciones reales, y una mejora del 228 % en el rendimiento con respecto a un modelo de disparo cero entrenado únicamente con datos sintéticos. Apoyamos la investigación de manipulación de doble brazo escalable y robusta mediante el lanzamiento de generadores de datos, puntos de referencia, conjuntos de datos y código.

Takeaways, Limitations

Takeaways:
Proporcionar un marco de generación de datos sintéticos a gran escala, diverso y realista para la manipulación escalable de doble brazo.
Se presenta un proceso eficiente de generación de tareas utilizando un modelo de lenguaje multimodal y mejoras basadas en simulación.
Mejorar el rendimiento de la transición de simulación a realidad y garantizar la robustez ante los cambios ambientales a través de la aleatorización estructurada del dominio.
Aprendizaje de políticas eficaz y mejora del rendimiento mediante el uso de datos sintéticos.
Proporcionar intercambio de investigaciones y escalabilidad a través de generadores de datos, puntos de referencia, conjuntos de datos y divulgación de código.
Limitations:
La variedad de modelos de robots y tareas admitidas actualmente puede ser limitada.
Es difícil lograr una coincidencia perfecta con el entorno real, por lo que pueden ser necesarios ajustes adicionales al aplicarlo al entorno real.
La calidad de la generación de datos puede verse afectada por el rendimiento de MLLM.
Es necesario ampliar aún más el alcance de la aleatorización estructurada de dominios.
👍