Nghiên cứu này nhằm mục đích cải thiện độ chính xác của chẩn đoán trầm cảm và rối loạn căng thẳng sau chấn thương (PTSD) bằng cách sử dụng các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đã đánh giá hiệu suất của LLM, bao gồm Gemini 1.5 Pro và GPT-4o mini, trên tập dữ liệu E-DAIC bằng hai phương thức: văn bản và âm thanh. Cụ thể, chúng tôi đã phân tích tác động của việc tích hợp phương thức đến độ chính xác chẩn đoán bằng các số liệu mới: Điểm vượt trội của phương thức và Điểm giải quyết bất đồng. Kết quả là, mô hình Gemini 1.5 Pro đạt được điểm F1 là 0,67 và độ chính xác cân bằng là 77,4% đối với phân loại trầm cảm nhị phân khi kết hợp các phương thức văn bản và âm thanh, chứng tỏ hiệu suất được cải thiện so với sử dụng một phương thức duy nhất. Điều này đạt được thông qua suy luận zero-shot. Hơn nữa, chúng tôi đã phân tích những thay đổi về hiệu suất trên nhiều tác vụ khác nhau (phân loại nhị phân, mức độ nghiêm trọng và đa lớp) và các biến thể nhắc nhở.