Este artículo aborda el problema de la "piratería de LLM", que surge al utilizar modelos lingüísticos a gran escala (LLM) en la investigación en ciencias sociales. La anotación de datos y el análisis de texto mediante LLM pueden variar significativamente según las decisiones de implementación del investigador, como la selección del modelo, la estrategia de indicaciones y la configuración de la temperatura. Esto puede generar sesgos sistemáticos y errores aleatorios, resultando en errores de tipo I, II, S y M. Los investigadores replicaron 37 tareas de anotación de datos de 21 artículos de investigación en ciencias sociales utilizando 18 modelos diferentes, analizaron 13 millones de etiquetas LLM y probaron 2361 hipótesis para medir el impacto de las decisiones de los investigadores en las conclusiones estadísticas. Los resultados mostraron que los modelos de vanguardia y los modelos lingüísticos a pequeña escala arrojaron conclusiones incorrectas basadas en los datos de anotación de LLM en aproximadamente un tercio de las hipótesis, mientras que los modelos a pequeña escala arrojaron aproximadamente la mitad de las hipótesis. El alto rendimiento en la tarea y las características generales superiores del modelo reducen, pero no eliminan, el riesgo de piratería de LLM, y este riesgo disminuye a medida que aumenta el tamaño del efecto. Además, demostramos que el hackeo intencional de LLM puede realizarse de forma bastante sencilla, y que cualquier resultado puede presentarse como estadísticamente significativo con tan solo unos pocos LLM y unas pocas variaciones. En conclusión, esto resalta la importancia de minimizar los errores en la investigación en ciencias sociales que utiliza LLM mediante la anotación humana y una cuidadosa selección de modelos.