Trong bài báo này, chúng tôi đề xuất một phương pháp tối ưu hóa trực tiếp mới, LarPO (LLM Alignment as Retriever Preference Optimization), tận dụng các nguyên lý của truy xuất thông tin (IR) để giải quyết vấn đề căn chỉnh của các mô hình ngôn ngữ quy mô lớn (LLM). Phương pháp này khắc phục được sự phức tạp của các phương pháp căn chỉnh dựa trên học tăng cường hiện có và trình bày một khuôn khổ hệ thống, ánh xạ các mô hình tạo LLM và mô hình khen thưởng vào mô hình xếp hạng lại tìm kiếm của IR. Kết quả thực nghiệm chứng minh hiệu quả của LarPO, cho thấy hiệu suất cải thiện lần lượt 38,9% và 13,7% trong AlpacaEval2 và MixEval-Hard. Điều này mở ra những khả năng mới cho nghiên cứu căn chỉnh LLM dựa trên IR.