Thao tác Tập hợp trong Spark: Aggregate và AggregateByKey

Aggregate ============ Aggregate là một thao tác tập hợp (aggregation) trong Spark. Dưới đây là ví dụ minh họa: import org.apache.spark.{SparkConf, SparkContext} class TongHopTest { def chayChuongTrinh(args:Array[String]): Unit = { // Cấu hình môi trường thực thi val cauHinh = new SparkConf().setAppName("Ví dụ Aggregate&quot ...

Đăng vào ngày 21 tháng 6 lúc 04:23

Xử lý hiện tượng dữ liệu lệch trong Apache Spark

Hiện tượng dữ liệu lệch (data skew) là một trong những nguyên nhân phổ biến gây giảm hiệu năng xử lý trong Apache Spark. Bài viết này trình bày các tình huống thường gặp và giải pháp khắc phục, bao gồm: điều chỉnh nguồn dữ liệu đầu vào, thay đổi mức độ song song, sử dụng Partitioner tùy chỉnh, chuyển từ Reduce-side Join sang Map-side Join, và b ...

Đăng vào ngày 17 tháng 5 lúc 14:24