Afin de comprendre les principes sous-jacents au succès de l'architecture Transformer, cet article présente un nouveau cadre théorique qui réinterprète les opérations fondamentales du mécanisme d'attention comme des réflexes conditionnés pavloviens. Il simplifie l'analyse des processus associatifs sous-jacents en trouvant une analogie mathématique directe avec l'attention linéaire. Nous démontrons que la requête, la clé et la valeur de l'attention peuvent être associées aux trois éléments du conditionnement classique : un stimulus test qui sonde les associations, un stimulus conditionné (SC) qui sert d'indice de récupération et un stimulus inconditionné (SI) qui contient les informations de réponse. Cette perspective propose que chaque opération d'attention forme une mémoire associative temporaire via la loi de Hebb, où la paire SC-SI forme une association dynamique qui permet de récupérer ultérieurement le stimulus test. En nous appuyant sur ce modèle linéarisé, nous obtenons plusieurs éclairages théoriques : (1) un théorème de capacité montrant qu'une tête d'attention peut stocker O($\sqrt{d_k}$) associations avant que des interférences ne dégradent la récupération ; (2) une analyse de la propagation des erreurs montrant les compromis architecturaux fondamentaux pour maintenir la fiabilité en ajustant la profondeur, la largeur et la redondance des têtes du modèle ; et (3) une compréhension de la manière dont des règles d'apprentissage biologiquement plausibles peuvent améliorer les architectures Transformer. En établissant ces liens profonds, nous suggérons que le succès de l'IA moderne pourrait être dû non seulement à la nouveauté architecturale, mais aussi à la mise en œuvre de principes informatiques que la biologie a optimisés au cours de millions d'années d'évolution.