PepThink-R1, un cadre génératif intégrant des modèles de langage à grande échelle (LLM), l'apprentissage supervisé par chaîne de pensée (CoT) et l'apprentissage par renforcement (RL), a été proposé pour relever les défis posés par le vaste espace de recherche, le manque de données expérimentales et la faible interprétabilité des modèles génératifs existants dans le processus de conception de peptides thérapeutiques. PepThink-R1 infère explicitement les modifications au niveau du monomère lors de la génération de la séquence peptidique, permettant des choix de conception interprétables tout en optimisant diverses propriétés pharmacologiques. Guidé par une fonction de récompense personnalisée qui équilibre faisabilité chimique et amélioration des propriétés, le modèle explore de manière autonome diverses variantes de séquence. Les résultats expérimentaux démontrent que PepThink-R1 génère des peptides cycliques présentant une lipophilie, une stabilité et une exposition significativement améliorées par rapport aux LLM conventionnels (par exemple, GPT-5) et aux modèles de base spécifiques à un domaine, démontrant des performances supérieures tant en termes de taux de réussite d'optimisation que d'interprétabilité. Cette étude présente le premier cadre de conception de peptides basé sur LLM qui combine l'inférence explicite avec le contrôle des fonctionnalités basé sur RL, marquant un pas en avant pour une optimisation fiable et transparente des peptides thérapeutiques.