Sử Dụng Thư Viện Requests trong Python để Thu Thập Dữ Liệu Web
Requests là thư viện bên thứ ba của Python để thực hiện các yêu cầu HTTP, được đánh giá cao trong lĩnh vực thu thập dữ liệu web. Thư viện này nổi bật với cú pháp đơn giản và hiệu quả, cho phép truy xuất tài nguyên web chỉ bằng một dòng lệnh.
Cài đặt Thư viện Requests
Thực hiện câu lệnh sau trong terminal:
pip install requests
Kiểm tra hoạt độ ...
Đăng vào ngày 30 tháng 6 lúc 03:12
Ứng dụng nâng cao của module requests
Mục lục
Ứng dụng nâng cao của module requests
Giải quyết vấn đề HttpConnectionPool
Sử dụng proxy IP
Cách sử dụng proxy đơn giản
Sử dụng proxy trong mã crawler
Thiết lập proxy trên trình duyệt
Tạo pool proxy
Tác dụng của pool proxy
Triển khai đơn giản một pool proxy
Xây dựng một pool proxy
Xử lý cookie
Thu thập thông tin tin tức từ trang chủ củ ...
Đăng vào ngày 26 tháng 6 lúc 06:07
Sử dụng Python để tải tile từ ArcGIS Server
Giới thiệu về tile map và ArcGIS Server
Trong lĩnh vực Hệ thống Thông tin Địa lý (GIS), ArcGIS Server là một công cụ mạnh mẽ, cung cấp các dịch vụ bản đồ hiệu quả. Tile map (bản đồ dạng mảnh ghép) là phương pháp hiển thị bản đồ phổ biến, giúp cải thiện đáng kể tốc độ tải và khả năng phản hồi. Bài viết này hướng dẫn bạn cách sử dụng Python để tư ...
Đăng vào ngày 22 tháng 6 lúc 06:24
Giới thiệu về web scraping
Web scraping là kỹ thuật sử dụng các chương trình máy tính để thu thập thông tin từ internet.
Yêu cầu: Tạo một chương trình để mô phỏng hành vi của trình duyệt, truy cập một địa chỉ URL và thu thập nội dung từ địa址 đó.
I. Chương trình cơ bản
# Sử dụng urlopen để lấy dữ liệu
from urllib.request import urlopen
url = "http://www.baidu.com&qu ...
Đăng vào ngày 20 tháng 6 lúc 04:25
Thực chiến Phi-4-mini-reasoning: Xây dựng client gọi API ổn định bằng Python requests
1. Giới thiệu mô hình và yêu cầu
Phi-4-mini-reasoning là mô hình ngôn ngữ nhỏ gọn 3.8 tỷ tham số do Microsoft phát triển, chuyên xử lý các tác vụ logic phức tạp như giải toán, lập luận và phân tích đa bước. Mô hình sở hữu các đặc điểm nổi bật:
Hiệu năng cao: Vượt trội trong giải toán và phân tích mã nguồn
Tiết kiệm tài nguyên: Kích thước chỉ 7 ...
Đăng vào ngày 19 tháng 6 lúc 22:09
Khung Kiểm Thử Giao Diện Dựa Trên JSON
Cách Thực Hiện
Tình Huống Yêu Cầu:
Công ty sử dụng chữ ký số cho các giao diện microservices. Khi sử dụng Postman để kiểm thử, mỗi lần đều cần chỉnh sửa mã nguồn để tắt tạm thời việc kiểm tra chữ ký, nhưng điều này làm cho các microservices khác không thể gọi dịch vụ đó.
Các tham số giao diện lấy từ ELK cần được định dạng JSON. Thông thư ...
Đăng vào ngày 16 tháng 6 lúc 08:40
Xây Dựng Khung Kiểm Thử API Bằng Excel
Phiên Bản Cơ Bản
Đọc file Excel theo định dạng sau (chỉ Sheet đầu tiên), gửi từng request API, kiểm tra status code trả về là 200, và ghi lại trạng thái cùng thông báo lỗi ngược lại Excel.
Quy tắc định dạng trong Excel:
URL chứa query parameter cần ghi trực tiếp vào URL, ví dụ: ?a=1&b=2
Custom headers định dạng key:value, mỗi header mộ ...
Đăng vào ngày 15 tháng 6 lúc 03:47
Lấy danh sách dự án mà người dùng đã đóng góp trên GitLab
Trong quá trình xây dựng hệ thống thống kê số lượng commit theo từng thành viên, một bước quan trọng là xác định các dự án mà người dùng đã tham gia. Trên giao diện người dùng của GitLab, thông tin này có thể xem được qua trang "Contributed projects". Tuy nhiên, API chính thức của GitLab không cung cấp endpoint nào để truy xuất trực tiếp dữ liệ ...
Đăng vào ngày 9 tháng 6 lúc 02:22
Thực hành kiểm thử API với Python: Xây dựng và tự động hóa
Trong bài học này, chúng ta sẽ xây dựng các endpoint API đơn giản bằng Flask, sau đó viết kịch bản kiểm thử tự động sử dụng thư viện requests và khung chạy kiểm thử pytest. Trọng tâm là cách thiết kế, gọi và xác minh hành vi của API một cách hiệu quả — không phụ thuộc vào giao diện người dùng.
Xây dựng API mẫu
Endpoint tính tổng (GET/POST hỗn ...
Đăng vào ngày 1 tháng 6 lúc 11:08
Hướng Dẫn Xây Dựng Tool Crawl Dữ Liệu Phim TOP250 Douban Với Python
Tổng Quan Về Dự Án Thu Thập Dữ Liệu
Việc khai thác thông tin từ danh sách 250 bộ phim hàng đầu trên Douban là một bài tập thực hành phổ biến giúp lập trình viên nắm vững kỹ thuật web scraping bằng Python. Quy trình này bao gồm việc gửi yêu cầu HTTP, phân tích cú pháp HTML và lưu trữ dữ liệu có cấu trúc.
Thiết Lập Môi Trường Phát Triển
Để bắt đ ...
Đăng vào ngày 20 tháng 5 lúc 11:19