Este artículo presenta un enfoque para el desafío de la detección de la depresión que considera rasgos de personalidad multimodales. Realizamos la detección multimodal de la depresión mediante modelos de aprendizaje automático y aprendizaje profundo, explorando y comparando el rendimiento de XGBoost, arquitecturas basadas en Transformers y modelos de lenguaje a gran escala (LLM) en características de audio, video y texto. Destacamos las fortalezas y limitaciones de cada tipo de modelo, capturando señales relacionadas con la depresión en diversas modalidades y brindando información sobre estrategias efectivas de representación multimodal para la predicción de la salud mental.