Basándonos en estudios previos sobre el rendimiento de modelos de lenguaje a gran escala (LLM) evaluados mediante diferentes tipos de preguntas (opción múltiple, verdadero/falso, corta/larga), este estudio tiene como objetivo explorar los efectos de diferentes tipos de preguntas en la precisión de los LLM en tareas de inferencia. Analizamos el rendimiento de cinco LLM utilizando tres tipos de preguntas en tareas de inferencia cuantitativa y deductiva. Las métricas de rendimiento incluyen la precisión en la etapa de inferencia y la precisión en la selección de la respuesta final. Los principales resultados son los siguientes: (1) Existen diferencias significativas en el rendimiento de los LLM entre los diferentes tipos de preguntas. (2) La precisión de la inferencia no está necesariamente correlacionada con la precisión de la selección final. (3) El número de opciones de respuesta y la selección de palabras afectan al rendimiento de los LLM.