Este artículo estudia la clasificación de respuestas abiertas en encuestas utilizando modelos lingüísticos a gran escala (LLM). A diferencia de estudios previos que se centraron principalmente en datos en inglés y temas simples, comparamos y analizamos varios LLM de vanguardia y métodos de ayuda utilizando datos de motivos de participación en encuestas en alemán. A través de la comparación del rendimiento con la codificación de expertos humanos, confirmamos la diferencia en el rendimiento de los LLM, y en particular, demostramos que solo los LLM afinados lograron un rendimiento de predicción satisfactorio. Descubrimos que la efectividad de los métodos de ayuda variaba según el LLM, y que sin afinarlos, los LLM podían clasificar cada categoría de motivos de participación en la encuesta de forma desigual, lo que podría distorsionar la distribución de categorías. En conclusión, discutimos las condiciones y limitaciones para el uso eficiente y preciso de los LLM en la investigación de encuestas, y sugerimos implicaciones para el procesamiento y análisis de datos por parte de los profesionales.