[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐáNh giá toàn diện về tác động của dữ liệu phi IID trong học tập liên bang

Created by
  • Haebom

Tác giả

Daniel M. Jimenez-Gutierrez, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti

Phác thảo

Trong bài báo này, chúng tôi phân tích sâu vấn đề về tính không đồng nhất của dữ liệu (không phải IID) trong học liên bang (FL), cho phép huấn luyện mô hình học máy cộng tác bằng cách sử dụng thông tin từ các máy khách phân tán. Đặc biệt, chúng tôi đo lường các loại tính không đồng nhất của dữ liệu khác nhau (nhãn, tính năng, khối lượng dữ liệu, bất đối xứng không gian-thời gian) chưa được giải quyết một cách có hệ thống trong các nghiên cứu trước đây bằng cách sử dụng khoảng cách Hellinger (HD) và so sánh và phân tích thực nghiệm hiệu suất của bốn chiến lược xử lý dữ liệu không phải IID hiện đại. Đặc biệt, chúng tôi phân tích toàn diện tác động của tính không đối xứng không gian-thời gian đến hiệu suất FL lần đầu tiên. Kết quả thực nghiệm cho thấy tính không đối xứng nhãn và không đối xứng không gian-thời gian có tác động đáng kể đến hiệu suất mô hình FL và sự suy giảm hiệu suất xảy ra đáng kể khi vượt quá ngưỡng HD nhất định. Chúng tôi xác nhận rằng hiệu suất FL bị suy giảm đáng kể trong các tình huống không phải IID cực đoan và đề xuất các hướng nghiên cứu cho FL để giải quyết hiệu quả tính không đồng nhất của dữ liệu.

Takeaways, Limitations

Takeaways:
Chúng tôi phân tích định lượng tác động của nhiều loại tính không đồng nhất của dữ liệu, chẳng hạn như bất đối xứng về nhãn và không gian-thời gian, trong học tập liên bang và trình bày rõ ràng mức độ nghiêm trọng của chúng.
Bằng cách phân tích tác động của dữ liệu không phải IID dựa trên ngưỡng khoảng cách Hellinger (HD) cụ thể, chúng tôi cung cấp hướng dẫn quan trọng để phát triển các chiến lược xử lý dữ liệu không phải IID hiệu quả.
Chúng tôi cung cấp phân tích toàn diện đầu tiên về tác động của sự bất đối xứng không gian và thời gian đối với hiệu suất FL, đặt nền tảng cho nghiên cứu trong tương lai.
Chúng tôi xác nhận rằng sự suy giảm hiệu suất FL xảy ra đáng kể trong các tình huống cực đoan không phải IID và đề xuất các hướng nghiên cứu để giải quyết vấn đề này.
Limitations:
Nghiên cứu này dựa trên kết quả thử nghiệm giới hạn trong một tập dữ liệu và bối cảnh cụ thể, do đó có thể không áp dụng được cho các tập dữ liệu hoặc bối cảnh khác.
Có thể cần phải phân tích so sánh nhiều chiến lược xử lý dữ liệu phi IID đa dạng hơn.
Có thể cần phải phân tích thêm bằng các biện pháp khác về sự khác biệt trong phân phối dữ liệu ngoài khoảng cách Hellinger.
👍