Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
RoboTwin 2.0: Un generador de datos escalable y un punto de referencia con una sólida aleatorización de dominios para una manipulación robótica bimanual robusta
RoboTwin 2.0 es un marco de generación de datos a gran escala, diverso y realista para la manipulación escalable de dos brazos. Para superar las limitaciones de los conjuntos de datos existentes (falta de métodos escalables de generación de tareas y entornos de simulación excesivamente simplificados), diseñamos una canalización experta de síntesis de datos que utiliza un modelo de lenguaje multimodal (MLLM) y refinamiento basado en simulación, basado en la biblioteca de objetos RoboTwin-OD, que contiene 731 instancias de objetos (147 categorías). Aplicamos aleatorización estructurada de dominios en cinco ejes (desorden, iluminación, fondo, altura de la mesa e idioma) para mejorar la transferencia de la simulación a la realidad, así como la diversidad de datos y la robustez de las políticas. Al aplicar este marco a 50 tareas de dos brazos y cinco modelos de robot, logramos una mejora del 10,9 % en la tasa de éxito de la generación de código, una mejora relativa del 367 % en el rendimiento al entrenar un modelo VLA con datos sintéticos y 10 demostraciones reales, y una mejora del 228 % en el rendimiento con respecto a un modelo de disparo cero entrenado únicamente con datos sintéticos. Apoyamos la investigación de manipulación de doble brazo escalable y robusta mediante el lanzamiento de generadores de datos, puntos de referencia, conjuntos de datos y código.
Takeaways, Limitations
•
Takeaways:
◦
Proporcionar un marco de generación de datos sintéticos a gran escala, diverso y realista para la manipulación escalable de doble brazo.
◦
Se presenta un proceso eficiente de generación de tareas utilizando un modelo de lenguaje multimodal y mejoras basadas en simulación.
◦
Mejorar el rendimiento de la transición de simulación a realidad y garantizar la robustez ante los cambios ambientales a través de la aleatorización estructurada del dominio.
◦
Aprendizaje de políticas eficaz y mejora del rendimiento mediante el uso de datos sintéticos.
◦
Proporcionar intercambio de investigaciones y escalabilidad a través de generadores de datos, puntos de referencia, conjuntos de datos y divulgación de código.
•
Limitations:
◦
La variedad de modelos de robots y tareas admitidas actualmente puede ser limitada.
◦
Es difícil lograr una coincidencia perfecta con el entorno real, por lo que pueden ser necesarios ajustes adicionales al aplicarlo al entorno real.
◦
La calidad de la generación de datos puede verse afectada por el rendimiento de MLLM.
◦
Es necesario ampliar aún más el alcance de la aleatorización estructurada de dominios.