Este artículo se centra en las técnicas de crowdsourcing utilizadas para construir conjuntos de datos refinados a gran escala, uno de los principales impulsores del desarrollo de la inteligencia artificial (IA) y el aprendizaje automático (AA). Las etiquetas generadas mediante crowdsourcing pueden contener ruido por diversas razones, lo que afecta negativamente al rendimiento del aprendizaje. En este artículo, presentamos las últimas tendencias de investigación en aprendizaje a partir de etiquetas ruidosas generadas mediante crowdsourcing. Revisamos los principales modelos y tratamientos metodológicos de crowdsourcing, desde los modelos estadísticos clásicos hasta los enfoques recientes basados en el aprendizaje profundo, y hacemos especial hincapié en la conexión con la teoría del procesamiento de señales (PS) (como la identificabilidad de factorizaciones tensoriales y matriciales no negativas), sugiriendo nuevas soluciones a los desafíos que el crowdsourcing ha planteado desde hace tiempo. También abordamos nuevos temas importantes para el desarrollo de sistemas de IA/AA de próxima generación, como el crowdsourcing con aprendizaje de refuerzo y retroalimentación humana (RLHF) y la optimización de preferencias directas (DPO). En particular, abordamos técnicas importantes para el ajuste fino de modelos lingüísticos a gran escala (LLM).