Bài báo này đánh giá một cách phê phán tính tổng quát và độ tin cậy của các chiến lược định giá tài sản và giao dịch cổ phiếu bằng cách sử dụng các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi chỉ ra rằng các nghiên cứu trước đây đã đánh giá quá cao hiệu quả của các chiến lược LLM do khung thời gian hạn hẹp và danh mục đầu tư cổ phiếu hạn chế. Chúng tôi đề xuất một khuôn khổ kiểm định ngược, FINSABER, để đánh giá các chiến lược định thời điểm thị trường dựa trên LLM trong một thời gian dài (hơn 20 năm) và trên 100 cổ phiếu.