Mối quan hệ giữa sự độc lập và tương quan: Đối với hai biến ngẫu nhiên, nếu chúng độc lập thì chắc chắn chúng không tương quan, nhưng ngược lại, nếu chúng không tương quan thì không nhất thiết là chúng độc lập. Một cách giải thích trực quan (có thể không hoàn toàn chính xác): Sự độc lập có nghĩa là hai biến ngẫu nhiên không có mối liên hệ nào với nhau, trong khi tương quan chỉ đơn giản là chỉ ra rằng chúng không có mối quan hệ tuyến tính. Từ đó, ta có thể suy ra kết luận trên.
Có ba phương pháp chính để đo lường mức độ tương quan giữa các biến ngẫu nhiên: hệ số tương quan Pearson, hệ số tương quan Spearman, và hệ số tương quan Kendall:
- Dữ liệu liên tục, phân phối chuẩn, và mối quan hệ tuyến tính: Hệ số tương quan Pearson là lựa chọn phù hợp nhất. Tuy nhiên, bạn vẫn có thể sử dụng hệ số Spearman, nhưng hiệu quả sẽ không cao bằng Pearson.
- Nếu bất kỳ điều kiện nào ở trên không được thỏa mãn, hãy sử dụng hệ số tương quan Spearman. Không thể sử dụng hệ số Pearson.
- Đối với hai tập dữ liệu thứ hạng (ordinal), hãy sử dụng hệ số tương quan Spearman, không dùng Pearson.
1. Hệ số tương quan Pearson
Hệ số tương quan Pearson đo lường mối tương quan tuyến tính giữa hai biến ngẫu nhiên. Công thức tính là:
ρX,Y = cov(X, Y) / (σX * σY)
Trong đó, cov(X, Y) là hiệp phương sai của X và Y, σX và σY là độ lệch chuẩn của X và Y, và μX, μY là kỳ vọng của X và Y.
Công thức này có thể được viết lại dưới dạng:
ρX,Y = [E(XY) - E(X)E(Y)] / [√(E(X²) - E(X)²) * √(E(Y²) - E(Y)²)]
Trong ngôn ngữ R, hàm để tính hệ số tương quan Pearson như sau:
// Tạo hai vector dữ liệu mẫu
du_lieu_x <- c(5, 8, 10)
du_lieu_y <- c(20, 25, 30)
// Tính toán hệ số tương quan Pearson
ket_qua_pearson <- cor.test(du_lieu_x, du_lieu_y, method = "pearson")
print(ket_qua_pearson$estimate)
2. Hệ số tương quan Spearman
Hệ số tương quan Spearman, hay còn gọi là hệ số tương quan theo秩 (rank), đo lường mối tương quan dựa trên thứ hạng của các giá trị thay vì giá trị gốc. Cả Spearman và Kendall đều là hệ số tương quan theo秩, nghĩa là giá trị của chúng chỉ phụ thuộc vào thứ tự sắp xếp của các giá trị, không phụ thuộc vào giá trị cụ thể.
Để tính hệ số Spearman, bạn có thể sử dụng phương pháp tính Pearson, chỉ cần thay thế dữ liệu gốc bằng thứ hạng của chúng trong tập dữ liệu.
Ví dụ, (1, 10, 100, 101) sẽ được thay thế bằng (1, 2, 3, 4). (21, 10, 15, 13) sẽ được thay thế bằng (4, 1, 3, 2). Sau đó, tính hệ số Pearson của hai vector đã được thay thế.
Hàm trong R để tính hệ số tương quan Spearman:
// Dữ liệu gốc
du_lieu_goc_x <- c(3, 15, 22, 9)
du_lieu_goc_y <- c(7, 18, 25, 12)
// Tính toán hệ số tương quan Spearman
ket_qua_spearman <- cor.test(du_lieu_goc_x, du_lieu_goc_y, method = "spearman")
print(ket_qua_spearman$estimate)
// Xác minh bằng cách tính Pearson trên dữ liệu đã xếp hạng
thu_tu_x <- rank(du_lieu_goc_x)
thu_tu_y <- rank(du_lieu_goc_y)
ket_qua_xac_minh <- cor.test(thu_tu_x, thu_tu_y, method = "pearson")
print(ket_qua_xac_minh$estimate)
3. Hệ số tương quan Kendall
Hệ số tương quan Kendall, hay còn gọi là hệ số đồng điệu (concordance coefficient), cũng là một hệ số tương quan theo秩. Cách tính như sau:
Đối với hai cặp quan sát (Xi, Yi) và (Xj, Yj), nếu Xi < Xj và Yi < Yj, hoặc Xi > Xj và Yi > Yj, thì cặp quan sát đó được gọi là đồng điệu (concordant). Ngược lại, chúng được gọi là không đồng điệu (discordant).
Công thức tính hệ số Kendall là:
τ = (Số cặp đồng điệu - Số cặp không đồng điệu) / (n(n-1)/2)
Trong đó n là số cặp quan sát.
Hàm trong R để tính hệ số tương quan Kendall:
// Dữ liệu mẫu
du_lieu_x_kendall <- c(4, 7, 9)
du_lieu_y_kendall <- c(6, 10, 8)
// Tính toán hệ số tương quan Kendall
ket_qua_kendall <- cor.test(du_lieu_x_kendall, du_lieu_y_kendall, method = "kendall")
print(ket_qua_kendall$estimate)