Xử lý hiện tượng dữ liệu lệch trong Apache Spark
Hiện tượng dữ liệu lệch (data skew) là một trong những nguyên nhân phổ biến gây giảm hiệu năng xử lý trong Apache Spark. Bài viết này trình bày các tình huống thường gặp và giải pháp khắc phục, bao gồm: điều chỉnh nguồn dữ liệu đầu vào, thay đổi mức độ song song, sử dụng Partitioner tùy chỉnh, chuyển từ Reduce-side Join sang Map-side Join, và b ...
Đăng vào ngày 17 tháng 05 lúc 21:24