Sử Dụng Thư Viện Requests trong Python để Thu Thập Dữ Liệu Web
Requests là thư viện bên thứ ba của Python để thực hiện các yêu cầu HTTP, được đánh giá cao trong lĩnh vực thu thập dữ liệu web. Thư viện này nổi bật với cú pháp đơn giản và hiệu quả, cho phép truy xuất tài nguyên web chỉ bằng một dòng lệnh.
Cài đặt Thư viện Requests
Thực hiện câu lệnh sau trong terminal:
pip install requests
Kiểm tra hoạt độ ...
Đăng vào ngày 30 tháng 6 lúc 03:12
Bắt đầu kiểm thử tự động với Selenium trong Python
Để bắt đầu kiểm thử tự động bằng Selenium, bạn cần thực hiện theo các bước sau:
1. Thiết lập môi trường
Cài đặt thư viện Selenium
Sử dụng lệnh sau để cài đặt qua pip:
pip install selenium
Tải và cấu hình trình điều khiển trình duyệt
Selenium hỗ trợ nhiều trình duyệt như Chrome, Firefox, Edge... Bạn cần tải trình điều khiển (WebDriver) tương ...
Đăng vào ngày 21 tháng 6 lúc 07:13
Thu thập dữ liệu từ Lagou bằng Scrapy
Quy trình thu thập dữ liệu từ trang web Lagou không quá phức tạp, nhưng có một số vấn đề nhỏ cần chú ý. Dưới đây là hướng dẫn chi tiết.
>> scrapy startproject lagou
>> cd lagou
>> scrapy genspider job_lagou www.lagou.com
Khởi tạo cấu trúc dữ liệu
Trong file items.py, chúng ta định nghĩa các trường dữ liệu cần thu thập:
# -*- ...
Đăng vào ngày 19 tháng 6 lúc 16:36
Thực hành Web Scraping đa dạng: Xử lý các tình huống thực tế
Các bài tập thực tế về thu thập dữ liệu web với nhiều kỹ thuật khác nhau
Bài tập 1: Xử lý chuyển hướng và tính toán giá trị trung bình
Sử dụng trình duyệt tự động để truy cập trang đích và tính toán giá trị trung bình từ bảng dữ liệu.
from selenium import webdriver
from selenium.webdriver.common.by import By
trinh_dieu_huong = webdriver.Chrome ...
Đăng vào ngày 17 tháng 6 lúc 23:14
Tích hợp Mô hình Cục bộ với OpenClaw
Giới thiệu
Việc tích hợp OpenClaw, một framework tự động hóa crawler và Agent, với các mô hình lớn được triển khai cục bộ thông qua Ollama, chủ yếu dựa vào khả năng cung cấp API tương thích OpenAI của Ollama. Vì OpenClaw thường được thiết kế để hỗ trợ giao thức OpenAI, nên bạn chỉ cần cấu hình nó để trỏ đến dịch vụ Ollama cục bộ là được.
Giai ...
Đăng vào ngày 16 tháng 6 lúc 03:02
Tự động thu thập các liên kết chi tiết từ kết quả tìm kiếm trên Behance
Mục đích: Cần thu thập nhiều hình ảnh chi tiết từ kết quả tìm kiếm như "washing machine", "refrigerator" và tải về máy để có bộ sưu tập hình ảnh chất lượng cao về "tủ lạnh".
Chức năng chương trình: Lấy các liên kết trang chi tiết từ nhiều kết quả tìm kiếm và lưu trữ chúng trong các tệp văn bản trên desktop, ví dụ & ...
Đăng vào ngày 29 tháng 5 lúc 11:40
Hướng Dẫn Xây Dựng Tool Crawl Dữ Liệu Phim TOP250 Douban Với Python
Tổng Quan Về Dự Án Thu Thập Dữ Liệu
Việc khai thác thông tin từ danh sách 250 bộ phim hàng đầu trên Douban là một bài tập thực hành phổ biến giúp lập trình viên nắm vững kỹ thuật web scraping bằng Python. Quy trình này bao gồm việc gửi yêu cầu HTTP, phân tích cú pháp HTML và lưu trữ dữ liệu có cấu trúc.
Thiết Lập Môi Trường Phát Triển
Để bắt đ ...
Đăng vào ngày 20 tháng 5 lúc 11:19
Khám phá Hệ sinh thái Tính toán Python
Hệ sinh thái Python cung cấp nền tảng đa dạng cho xử lý dữ liệu, phát triển ứng dụng và phân tích thông minh. Dưới đây là tổng quan các thành phần then chốt được phân nhóm theo lĩnh vực ứng dụng.
Xử lý Dữ liệu và Trí tuệ Nhân tạo
Quy trình xử lý dữ liệu tiêu chuẩn bao gồm: biểu diễn dữ liệu → làm sạch → thống kê → trực quan hóa → khai phá → ứn ...
Đăng vào ngày 20 tháng 5 lúc 10:14
Tự tạo Middleware trong Scrapy - Hướng dẫn toàn diện
Giới thiệu
Trong các bài viết trước, chúng ta đã tìm hiểu về cách sử dụng Scrapy cơ bản và các phương pháp xử lý dữ liệu. Bài viết này sẽ hướng dẫn bạn một tính năng nâng cao của Scrapy đó là tự tạo middleware.
Middleware trong Scrapy đóng vai trò như một cầu nối giữa các thành phần khác nhau của framework. Cơ chế middleware linh hoạt cho phép ...
Đăng vào ngày 20 tháng 5 lúc 04:20
Các Ứng Dụng Thực Tế Của Python Trong Tự Động Hóa, Phân Tích Dữ Liệu Và Phát Triển Web
Tự Động Hóa Công Việc Văn Phòng
Python là công cụ mạnh mẽ để xử lý các tác vụ lặp đi lặp lại trong môi trường văn phòng. Dưới đây là một số ví dụ điển hình với mã nguồn được viết lại hoàn toàn — tối ưu hóa cấu trúc, cải thiện tính rõ ràng và tuân thủ các nguyên tắc lập trình hiện đại:
Trích xuất số điện thoại từ nhiều tệp văn bản
import re
fro ...
Đăng vào ngày 16 tháng 5 lúc 23:09