Sử Dụng Thư Viện Requests trong Python để Thu Thập Dữ Liệu Web

Requests là thư viện bên thứ ba của Python để thực hiện các yêu cầu HTTP, được đánh giá cao trong lĩnh vực thu thập dữ liệu web. Thư viện này nổi bật với cú pháp đơn giản và hiệu quả, cho phép truy xuất tài nguyên web chỉ bằng một dòng lệnh. Cài đặt Thư viện Requests Thực hiện câu lệnh sau trong terminal: pip install requests Kiểm tra hoạt độ ...

Đăng vào ngày 30 tháng 6 lúc 03:12

Ứng dụng nâng cao của module requests

Mục lục Ứng dụng nâng cao của module requests Giải quyết vấn đề HttpConnectionPool Sử dụng proxy IP Cách sử dụng proxy đơn giản Sử dụng proxy trong mã crawler Thiết lập proxy trên trình duyệt Tạo pool proxy Tác dụng của pool proxy Triển khai đơn giản một pool proxy Xây dựng một pool proxy Xử lý cookie Thu thập thông tin tin tức từ trang chủ củ ...

Đăng vào ngày 26 tháng 6 lúc 06:07

Sử dụng Python để tải tile từ ArcGIS Server

Giới thiệu về tile map và ArcGIS Server Trong lĩnh vực Hệ thống Thông tin Địa lý (GIS), ArcGIS Server là một công cụ mạnh mẽ, cung cấp các dịch vụ bản đồ hiệu quả. Tile map (bản đồ dạng mảnh ghép) là phương pháp hiển thị bản đồ phổ biến, giúp cải thiện đáng kể tốc độ tải và khả năng phản hồi. Bài viết này hướng dẫn bạn cách sử dụng Python để tư ...

Đăng vào ngày 22 tháng 6 lúc 06:24

Giới thiệu về web scraping

Web scraping là kỹ thuật sử dụng các chương trình máy tính để thu thập thông tin từ internet. Yêu cầu: Tạo một chương trình để mô phỏng hành vi của trình duyệt, truy cập một địa chỉ URL và thu thập nội dung từ địa址 đó. I. Chương trình cơ bản # Sử dụng urlopen để lấy dữ liệu from urllib.request import urlopen url = "http://www.baidu.com&qu ...

Đăng vào ngày 20 tháng 6 lúc 04:25

Thực chiến Phi-4-mini-reasoning: Xây dựng client gọi API ổn định bằng Python requests

1. Giới thiệu mô hình và yêu cầu Phi-4-mini-reasoning là mô hình ngôn ngữ nhỏ gọn 3.8 tỷ tham số do Microsoft phát triển, chuyên xử lý các tác vụ logic phức tạp như giải toán, lập luận và phân tích đa bước. Mô hình sở hữu các đặc điểm nổi bật: Hiệu năng cao: Vượt trội trong giải toán và phân tích mã nguồn Tiết kiệm tài nguyên: Kích thước chỉ 7 ...

Đăng vào ngày 19 tháng 6 lúc 22:09

Khung Kiểm Thử Giao Diện Dựa Trên JSON

Cách Thực Hiện Tình Huống Yêu Cầu: Công ty sử dụng chữ ký số cho các giao diện microservices. Khi sử dụng Postman để kiểm thử, mỗi lần đều cần chỉnh sửa mã nguồn để tắt tạm thời việc kiểm tra chữ ký, nhưng điều này làm cho các microservices khác không thể gọi dịch vụ đó. Các tham số giao diện lấy từ ELK cần được định dạng JSON. Thông thư ...

Đăng vào ngày 16 tháng 6 lúc 08:40

Xây Dựng Khung Kiểm Thử API Bằng Excel

Phiên Bản Cơ Bản Đọc file Excel theo định dạng sau (chỉ Sheet đầu tiên), gửi từng request API, kiểm tra status code trả về là 200, và ghi lại trạng thái cùng thông báo lỗi ngược lại Excel. Quy tắc định dạng trong Excel: URL chứa query parameter cần ghi trực tiếp vào URL, ví dụ: ?a=1&b=2 Custom headers định dạng key:value, mỗi header mộ ...

Đăng vào ngày 15 tháng 6 lúc 03:47

Lấy danh sách dự án mà người dùng đã đóng góp trên GitLab

Trong quá trình xây dựng hệ thống thống kê số lượng commit theo từng thành viên, một bước quan trọng là xác định các dự án mà người dùng đã tham gia. Trên giao diện người dùng của GitLab, thông tin này có thể xem được qua trang "Contributed projects". Tuy nhiên, API chính thức của GitLab không cung cấp endpoint nào để truy xuất trực tiếp dữ liệ ...

Đăng vào ngày 9 tháng 6 lúc 02:22

Thực hành kiểm thử API với Python: Xây dựng và tự động hóa

Trong bài học này, chúng ta sẽ xây dựng các endpoint API đơn giản bằng Flask, sau đó viết kịch bản kiểm thử tự động sử dụng thư viện requests và khung chạy kiểm thử pytest. Trọng tâm là cách thiết kế, gọi và xác minh hành vi của API một cách hiệu quả — không phụ thuộc vào giao diện người dùng. Xây dựng API mẫu Endpoint tính tổng (GET/POST hỗn ...

Đăng vào ngày 1 tháng 6 lúc 11:08

Hướng Dẫn Xây Dựng Tool Crawl Dữ Liệu Phim TOP250 Douban Với Python

Tổng Quan Về Dự Án Thu Thập Dữ Liệu Việc khai thác thông tin từ danh sách 250 bộ phim hàng đầu trên Douban là một bài tập thực hành phổ biến giúp lập trình viên nắm vững kỹ thuật web scraping bằng Python. Quy trình này bao gồm việc gửi yêu cầu HTTP, phân tích cú pháp HTML và lưu trữ dữ liệu có cấu trúc. Thiết Lập Môi Trường Phát Triển Để bắt đ ...

Đăng vào ngày 20 tháng 5 lúc 11:19