Trích xuất dữ liệu từ hai cột tương ứng trong Python

Hướng dẫn trích xuất dữ liệu từ hai cột tương ứng trong Python

Với tư cách là một nhà phát triển giàu kinh nghiệm, tôi rất vui được hướng dẫn các lập trình viên mới học cách sử dụng Python để trích xuất dữ liệu từ hai cột tương ứng. Trong bài viết này, tôi sẽ mô tả chi tiết toàn bộ quy trình và cung cấp các ví dụ mã cần thiết.

Tổng quan quy trình

Đầu tiên, hãy xem xét toàn bộ quy trình trích xuất dữ liệu qua bảng dưới đây:

Bước	Mô tả	Ví dụ mã
1	Import thư viện cần thiết	`import pandas as pd`
2	Tải dữ liệu	`data = pd.read\_csv('source\_data.csv')`
3	Xem cấu trúc dữ liệu	`print(data.head())`
4	Chọn các cột cần trích xuất	`target\_cols = data\[\['field\_A', 'field\_B'\]\]`
5	Trích xuất dữ liệu	`result = target\_cols.values`
6	Xử lý hoặc lưu dữ liệu	Tùy theo nhu cầu xử lý hoặc lưu trữ

Chi tiết từng bước

Bước 1: Import thư viện cần thiết

Trước khi bắt đầu, chúng ta cần import thư viện pandas trong Python, đây là một thư viện mạnh mẽ để xử lý dữ liệu.

import pandas as pd

Bước 2: Tải dữ liệu

Tiếp theo, chúng ta cần tải dữ liệu mà chúng ta muốn xử lý. Giả sử dữ liệu của chúng ta được lưu trong một tệp CSV có tên source_data.csv.

data = pd.read_csv('source_data.csv')

Bước 3: Xem cấu trúc dữ liệu

Trước khi thực hiện bất kỳ thao tác nào, việc xem cấu trúc dữ liệu luôn là một thói quen tốt. Điều này giúp chúng ta hiểu tên các cột và kiểu dữ liệu.

print(data.head())

Bước 4: Chọn các cột cần trích xuất

Giả sử chúng ta muốn trích xuất dữ liệu từ hai cột có tên field_A và field_B. Chúng ta có thể sử dụng tính năng chọn cột của pandas để thực hiện việc này.

target_cols = data[['field_A', 'field_B']]

Bước 5: Trích xuất dữ liệu

Bây giờ chúng ta đã chọn được các cột cần thiết, chúng ta có thể trích xuất dữ liệu này vào một mảng NumPy để xử lý thêm.

result = target_cols.values

Bước 6: Xử lý hoặc lưu dữ liệu

Tùy theo nhu cầu, chúng ta có thể xử lý thêm dữ liệu đã trích xuất hoặc lưu nó vào một tệp CSV mới.

# Xử lý dữ liệu
# ...

# Lưu dữ liệu vào tệp CSV mới
result_df = pd.DataFrame(result, columns=['field_A', 'field_B'])
result_df.to_csv('output_data.csv', index=False)

Ví dụ thực tế

Hãy xem một ví dụ cụ thể với dữ liệu thực tế. Giả sử chúng ta có một tệp sales_data.csv chứa thông tin bán hàng với các cột product_name và revenue.

# Import thư viện
import pandas as pd

# Tải dữ liệu
sales_data = pd.read_csv('sales_data.csv')

# Xem 5 dòng đầu tiên
print("Xem 5 dòng đầu tiên của dữ liệu:")
print(sales_data.head())

# Chọn hai cột cần thiết
product_revenue = sales_data[['product_name', 'revenue']]

# Trích xuất dữ liệu
sales_result = product_revenue.values

# Lưu kết quả
sales_df = pd.DataFrame(sales_result, columns=['product_name', 'revenue'])
sales_df.to_csv('sales_result.csv', index=False)

print("Đã lưu kết quả vào tệp sales_result.csv")

Xử lý dữ liệu trích xuất

Sau khi trích xuất dữ liệu từ hai cột, chúng ta có thể thực hiện nhiều thao tác khác nhau:

# Tính toán trên dữ liệu đã trích xuất
avg_revenue = sales_df['revenue'].mean()
max_revenue = sales_df['revenue'].max()
min_revenue = sales_df['revenue'].min()

print(f"Doanh thu trung bình: {avg_revenue}")
print(f"Doanh thu cao nhất: {max_revenue}")
print(f"Doanh thu thấp nhất: {min_revenue}")

# Lọc dữ liệu theo điều kiện
high_revenue = sales_df[sales_df['revenue'] > avg_revenue]

# Nhóm dữ liệu và tổng hợp
grouped_data = sales_df.groupby('product_name')['revenue'].sum()

Thẻ: python Pandas xử lý dữ liệu trích xuất dữ liệu

Đăng vào ngày 23 tháng 5 lúc 01:29

Thành phố Cuồng loạn