Xử lý tệp tin nhỏ trong Hadoop
1. Vấn đề phát sinh
HDFS không phải là giải pháp tối ưu cho việc lưu trữ các tệp tin có kích thước nhỏ. Lý do là mỗi tệp tin, dù nhỏ, cũng chiếm ít nhất một block, và thông tin metadata của mỗi block đều được lưu trong bộ nhớ của NameNode. Khi số lượng tệp tin nhỏ tăng lên, bộ nhớ NameNode sẽ bị tiêu tốn đáng kể. Dưới đây là mô phỏng một kịch b ...
Đăng vào ngày 14 tháng 6 lúc 05:19