Este artículo presenta una solución nativa que fusiona múltiples canales en cada paso de tiempo para lograr una baja latencia en un modelo conversacional full-duplex. Para abordar el problema de que los métodos de alineación a nivel de palabra existentes degradan el rendimiento del modelado lingüístico, introducimos "monólogos naturales", que consisten en oraciones continuas y pausas que imitan el comportamiento conversacional humano. Para lograr la alineación semántica entre los monólogos naturales y el audio, desarrollamos un método de aprendizaje dual que alterna las posiciones de los monólogos para aprender el idioma. Posteriormente, desarrollamos este método de aprendizaje dual, FLM-Audio, un chatbot conversacional full-duplex con parámetros 7B. Los resultados experimentales demuestran que FLM-Audio ofrece una calidad de respuesta y una experiencia conversacional superiores a las de los modelos existentes, a la vez que requiere una cantidad significativamente menor de datos de entrenamiento.