TruthLens là một khuôn khổ phát hiện deepfake toàn diện và có khả năng tổng quát hóa, vượt ra ngoài phạm vi phân loại nhị phân truyền thống (thật so với giả) để cung cấp suy luận chi tiết dựa trên văn bản. TruthLens sử dụng chiến lược tích hợp biểu diễn theo tác vụ, kết hợp ngữ cảnh ngữ nghĩa toàn cục của mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) với các đặc điểm cục bộ từ mô hình trực quan. Điều này cho phép suy luận chi tiết, dựa trên vùng cho thao tác khuôn mặt và nội dung tổng hợp hoàn toàn, trả lời các câu hỏi cụ thể như "Mắt, mũi và miệng có trông thật không?". Kết quả thử nghiệm trên nhiều tập dữ liệu khác nhau chứng minh rằng TruthLens đặt ra một tiêu chuẩn mới về cả khả năng diễn giải pháp y và độ chính xác phát hiện, đồng thời có khả năng tổng quát hóa tốt trên cả các thao tác đã biết và chưa biết.