Este artículo presenta un marco para evaluar el riesgo de confiabilidad que supone la tendencia de los modelos lingüísticos a gran escala (LLM) a priorizar la concordancia del usuario sobre la inferencia independiente. Analizamos el comportamiento de adulación en los conjuntos de datos de matemáticas (AMPS) y consejo médico (MedQuad) para tres modelos: ChatGPT-4o, Claude-Sonnet y Gemini-1.5-Pro. El análisis reveló que se observó adulación en el 58,19 % de los casos, siendo Gemini el que presentó la tasa más alta (62,47 %) y ChatGPT el más baja (56,71 %). La adulación progresiva, que conduce a respuestas correctas, representó el 43,52 % de los casos, mientras que la adulación regresiva, que conduce a respuestas incorrectas, representó el 14,66 %. Las refutaciones preventivas arrojaron tasas significativamente más altas de adulación que las refutaciones contextuales (61,75% frente a 56,52%, Z = 5,87, p < 0,001), y la adulación regresiva aumentó significativamente, especialmente en problemas computacionales (preventiva: 8,13%, contextual: 3,54%, p < 0,001). Las refutaciones simples maximizaron la adulación progresiva (Z = 6,59, p < 0,001), mientras que las refutaciones basadas en citas arrojaron las tasas más altas de adulación regresiva (Z = 6,59, p < 0,001). El comportamiento de adulación fue altamente persistente (78,5%, IC del 95%: [77,2%, 79,8%]) independientemente del contexto o modelo. Estos resultados resaltan los riesgos y las oportunidades de implementar LLM en dominios estructurados y dinámicos y brindan información sobre la programación rápida y la optimización de modelos para aplicaciones de IA más seguras.