Sign In
💽

Superar el problema de la falta de datos mediante la generación de datos sintéticos

La generación de datos sintéticos es una tecnología en la que la inteligencia artificial crea datos virtuales por sí sola cuando los datos reales son insuficientes. A partir de datos reales existentes, la IA puede "sintetizar" nuevos datos y utilizarlos para aprender aún más.
Por ejemplo, al desarrollar un chatbot que deba comprender los documentos legales del país A, si no hay suficientes documentos legales reales de ese país, mediante la generación de datos sintéticos se pueden crear nuevos documentos derivados de los documentos legales de otros países existentes. Aunque estos documentos no existen en la realidad, pueden ser utilizados para que el chatbot aprenda lo necesario para comprender los textos legales.
Datos sintéticos como estos ayudan a ahorrar tiempo y costes en el entrenamiento de modelos de IA, y permiten prepararse para distintas situaciones. Además, ofrecen la flexibilidad de adaptar los datos a dominios o idiomas específicos.
RAG (Retrieval-Augmented Generation) es un modelo que busca información y genera respuestas basándose en ella. La generación de datos sintéticos para RAG puede usarse para crear la base de datos sobre la que realiza búsquedas. Con datos sintéticos, el modelo RAG aprende a generar respuestas a distintos tipos de preguntas y a proporcionar información más precisa y útil ante las consultas reales de los usuarios.
Sin embargo, asegurar la calidad de los datos sintéticos es un reto importante. Si los datos no reflejan bien la realidad, el modelo puede aprender información incorrecta. Por eso, al generar datos sintéticos, es esencial garantizar la diversidad y calidad de los datos y evaluarlos periódicamente para que el modelo pueda brindar respuestas apropiadas a situaciones reales. Durante este proceso, hay que comprobar que los datos cubren distintos escenarios relevantes para el trabajo real y seguir mejorando el modelo en función de su rendimiento.

¿Casos de uso reales?

Estudio de Dai et al. (2022): En este estudio, propusieron un método para lograr un desempeño casi óptimo usando solo ocho ejemplos etiquetados manualmente y grandes volúmenes de datos sin etiquetar (por ejemplo, todos los documentos legales procesados electrónicamente).
Uso de datos sintéticos en modelos de aprendizaje automático: Los modelos entrenados con datos sintéticos pueden superar a los entrenados con datos reales en ciertas situaciones. Esto puede ayudar a los científicos a identificar cuándo es preferible el uso de datos sintéticos para el entrenamiento, ya que elimina problemas de sesgos, privacidad, seguridad y derechos de autor que pueden afectar a los conjuntos de datos reales.
Desarrollo de datos sintéticos por parte de MOSTLY AI: MOSTLY AI lidera la generación de datos sintéticos para el desarrollo de modelos de IA y pruebas de software. Esto muestra el rápido avance en el campo de la IA y los datos sintéticos. (Enlace) No deja de ser una afirmación, así que no está claro si realmente funciona. Parece algo promocional, pero ellos aseguran que lo están haciendo.
En industrias como las finanzas o la salud, pueden existir barreras legales o éticas para obtener datos reales. Por eso, es un campo en el que hay una gran demanda de generar los conjuntos de datos necesarios para el aprendizaje basados en datos previamente autorizados.
En conclusión, la generación de datos sintéticos es de gran ayuda para desarrollar y probar rápidamente modelos de IA cuando hay escasez de datos, y es especialmente esencial en modelos como RAG para generar mejores respuestas con la información buscada. GPT, Bing, Bard de Google o Notion Q&A son algunos ejemplos representativos. Estos servicios generan mejores respuestas tomando como base los documentos y archivos que los usuarios suben o crean.
👁️‍🗨️
👩‍💻
ⓒ 2023. Haebom, todos los derechos reservados.
Se puede utilizar con fines comerciales si se menciona la fuente y se cuenta con el permiso del titular de los derechos de autor.
👍