Thao tác Tập hợp trong Spark: Aggregate và AggregateByKey
Aggregate
============
Aggregate là một thao tác tập hợp (aggregation) trong Spark. Dưới đây là ví dụ minh họa:
import org.apache.spark.{SparkConf, SparkContext}
class TongHopTest {
def chayChuongTrinh(args:Array[String]): Unit = {
// Cấu hình môi trường thực thi
val cauHinh = new SparkConf().setAppName("Ví dụ Aggregate" ...
Đăng vào ngày 21 tháng 6 lúc 04:23
Xử lý hiện tượng dữ liệu lệch trong Apache Spark
Hiện tượng dữ liệu lệch (data skew) là một trong những nguyên nhân phổ biến gây giảm hiệu năng xử lý trong Apache Spark. Bài viết này trình bày các tình huống thường gặp và giải pháp khắc phục, bao gồm: điều chỉnh nguồn dữ liệu đầu vào, thay đổi mức độ song song, sử dụng Partitioner tùy chỉnh, chuyển từ Reduce-side Join sang Map-side Join, và b ...
Đăng vào ngày 17 tháng 5 lúc 14:24