PepThink-R1, un marco generativo que integra modelos de lenguaje a gran escala (LLM), aprendizaje supervisado por cadena de pensamiento (CoT) y aprendizaje de refuerzo (RL), se propuso para abordar los desafíos del amplio espacio de búsqueda, la escasez de datos experimentales y la escasa interpretabilidad de los modelos generativos existentes en el proceso de diseño de péptidos terapéuticos. PepThink-R1 infiere explícitamente modificaciones a nivel de monómero durante la generación de secuencias peptídicas, lo que permite opciones de diseño interpretables a la vez que optimiza diversas propiedades farmacológicas. Guiado por una función de recompensa personalizada que equilibra la viabilidad química y la mejora de propiedades, el modelo explora de forma autónoma diversas variantes de secuencia. Los resultados experimentales demuestran que PepThink-R1 genera péptidos cíclicos con lipofilicidad, estabilidad y exposición significativamente mejoradas en comparación con los LLM convencionales (p. ej., GPT-5) y los modelos de referencia específicos de dominio, lo que demuestra un rendimiento superior tanto en la tasa de éxito de la optimización como en la interpretabilidad. Este estudio presenta el primer marco de diseño de péptidos basado en LLM que combina la inferencia explícita con el control de características basado en RL, lo que marca un paso adelante para la optimización terapéutica confiable y transparente de péptidos.