Este artículo aborda las vulnerabilidades del uso de modelos de lenguaje a gran escala (LLM) para el ajuste de datos y la generación de predicciones. Si bien los LLM demuestran un rendimiento predictivo competitivo en diversas tareas, observamos que son vulnerables a cambios irrelevantes para la tarea en la representación de los datos (p. ej., cambio de nombre de variables). Este fenómeno ocurre tanto en el aprendizaje en contexto como en el ajuste fino supervisado, así como en LLM de ponderación cerrada y abierta. El análisis del mecanismo de atención en LLM de ponderación abierta revela que se centran excesivamente en tokens en posiciones específicas. Incluso modelos de vanguardia como TabPFN, entrenados específicamente para el ajuste de datos, no son inmunes a estas vulnerabilidades. Por lo tanto, los LLM actuales carecen incluso de un nivel básico de robustez para ser utilizados como una herramienta de ajuste de datos con principios.