Hướng dẫn dưới đây trình bày quy trình thiết lập hệ thống CDH (Cloudera Distribution Hadoop) ở chế độ phân tán giả lập (pseudo-distributed). Yêu cầu cơ bản bao gồm máy chủ đã cài đặt sẵn môi trường chạy Java và dịch vụ SSH.
1. Tải về và Giải nén Thư mục
Tìm kiếm gói cài đặt tương ứng với phiên bản 2.6.0 của Hadoop từ dòng sản phẩm CDH 5.9.0. Sau khi tải xuống, di chuyển tệp này vào vị trí lưu trữ phần mềm (ví dụ: `/srv/app`), thực hiện thao tác giải nén để chuẩn bị môi trường làm việc.
tar -zxvf hadoop-2.6.0-cdh5.9.0.tar.gz -C /srv/app/
2. Cấu Trúc Tập Tin Cấu Hình
Vào thư mục cài đặt, truy cập mục chứa các file tùy chỉnh ở đường dẫn `etc/hadoop`. Cần điều chỉnh một số biến môi trường và tham số hệ thống.
Tập tin hadoop-env.sh:
Thêm các khai báo cần thiết để trỏ đến đường dẫn JRE và thư mục gốc của Hadoop:
export JAVA_HOME=/usr/java/jdk1.8.0_201
export HADOOP_HOME=/srv/app/hadoop-2.6.0-cdh5.9.0
Tập tin core-site.xml:
Tùy chỉnh thông tin liên lạc cốt lõi. Lưu ý nên chỉ định rõ thư mục tạm thời (tmp.dir) thay vì dùng giá trị mặc định tại `/tmp`, tránh rủi ro mất dữ liệu sau khi khởi động lại hệ thống.
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/lib/hadoop/cache</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://server-node.localdomain:9000</value>
</property>
</configuration>
Tập tin hdfs-site.xml:
Định nghĩa các tham số cho HDFS. Đối với chế độ giả lập trên một máy, hệ số nhân bản (replication) được đặt là 1.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hdfs/data</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>/data/hdfs/snapshot</value>
</property>
</configuration>
Tập tin mapred-site.xml:
Thiết lập khung xử lý MapReduce hoạt động dựa trên tài nguyên YARN.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>server-node.localdomain:10020</value>
</property>
</configuration>
3. Cập Nhật Biến Hệ Thống
Cần thêm các biến môi trường vào profile hệ thống để người dùng có thể truy cập lệnh Hadoop từ bất kỳ đâu. Chèn nội dung sau vào cuối tập tin `/etc/profile` hoặc `~/.bashrc`:
export HADOOP_HOME=/srv/app/hadoop-2.6.0-cdh5.9.0
export PATH=${PATH}:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
Lưu lại tệp tin và thực thi lệnh reload để áp dụng thay đổi ngay lập tức:
source /etc/profile
4. Khởi Tạo NameNode
Trước khi chạy các dịch vụ, bắt buộc phải định dạng NameNode lần đầu tiên để tạo không gian lưu trữ metadata.
hdfs namenode -format
Kiểm tra kết quả trả về, nếu xuất hiện thông báo trạng thái thành công thì coi như bước này hoàn tất.
5. Khởi Động Dịch Vụ
Di chuyển vào thư mục quản lý tiến độ và chạy kịch bản kích hoạt toàn bộ cụm Hadoop.
cd $HADOOP_HOME/sbin
./start-dfs.sh
./start-yarn.sh
Sử dụng câu lệnh `jps` để xem danh sách các tiến trình Java đang chạy. Nếu thấy các tên như NameNode, DataNode, ResourceManager và NodeManager xuất hiện, chứng tỏ dịch vụ đã khởi động đúng cách.
Ngoài ra, người quản trị có thể kiểm tra trực quan qua trình duyệt web bằng cách truy cập địa chỉ giao diện dành cho HDFS, thường nằm ở cổng 9870 hoặc 50070 tùy phiên bản cụ thể.