Este documento propone GenTorrent, una superposición de servicios LLM que aprovecha los recursos informáticos de los participantes distribuidos, para abordar los desafíos de escalabilidad en el servicio de modelos de lenguaje a gran escala (LLM) rentables y de código abierto, en particular los desafíos que enfrentan las pequeñas organizaciones y los individuos que implementan y prueban innovaciones LLM. Inspirado en las redes peer-to-peer, GenTorrent aborda cuatro preguntas de investigación fundamentales: configuración de la red de superposición, privacidad de la comunicación LLM, entrega de la superposición con eficiencia de recursos y verificación de la calidad del servicio. Los resultados de la evaluación de un prototipo implementado en un conjunto de nodos distribuidos demuestran que GenTorrent reduce la latencia en más del 50% en comparación con un diseño base sin entrega de superposición, mientras que sus características de seguridad incurren en una sobrecarga insignificante en la latencia y el rendimiento del servicio. Esta investigación sugiere una nueva dirección para democratizar y escalar las futuras capacidades de servicio de IA.