Tự động hóa việc lấy mã truy cập Baidu Netdisk: Nguyên lý và Hướng dẫn thực hành
Tự động hóa việc lấy mã truy cập Baidu Netdisk: Nguyên lý và Hướng dẫn thực hành
Trong kỷ nguyên chia sẻ tài nguyên số, Baidu Netdisk đã trở thành một nền tảng quan trọng để chúng ta truy cập tài liệu học tập, tài liệu công việc và tài nguyên giải trí. Tuy nhiên, khi đối mặt với các liên kết chia sẻ thiếu mã truy cập, việc tìm kiếm thủ công thư ...
Đăng vào ngày 19 tháng 6 lúc 02:15
Hướng Dẫn Lập Trình Python cho Web Scraping
Học Thuật Toàn Mạng Web
Lưu ý: Ghi chú này được viết bằng jupyter.
Kiến Thức Web Frontend
Jupyter có thể chạy trực tiếp HTML và JavaScript chỉ cần thêm %%html hoặc %%javascript vào trước mã code:
%%html
<html>
<head>
<title>Phát triển Web Scraping với Python</title>
<meta charset='UT ...
Đăng vào ngày 18 tháng 6 lúc 17:02
Xây dựng framework Python chống JS obfuscation và đóng gói EXE chỉ với một cú click
Giới thiệu về framework chống JS obfuscation
Khung xương Python này có thể tự động xử lý các cơ chế chống truy cập như mã hóa JavaScript (JS obfuscation), tham số động, không cần sửa đổi code cốt lõi. Chỉ cần ghi đè duy nhất 1 phương thức là có thể áp dụng cho bất kỳ website nào. Đặc biệt, framework có thể đóng gói thành file EXE độc lập, khôn ...
Đăng vào ngày 16 tháng 6 lúc 06:16
Lấy danh sách dự án mà người dùng đã đóng góp trên GitLab
Trong quá trình xây dựng hệ thống thống kê số lượng commit theo từng thành viên, một bước quan trọng là xác định các dự án mà người dùng đã tham gia. Trên giao diện người dùng của GitLab, thông tin này có thể xem được qua trang "Contributed projects". Tuy nhiên, API chính thức của GitLab không cung cấp endpoint nào để truy xuất trực tiếp dữ liệ ...
Đăng vào ngày 9 tháng 6 lúc 02:22
Tổng Kết Tài Liệu Thực Hiện Ứng Dụng AI Quy Mô Lớn Bằng LangChain
Phần I: Tư Duy Tổng Thể
Với văn bản dài vượt quá giới hạn token của mô hình ngôn ngữ lớn (LLM), cần thiết kế một pipeline **map-reduce** để chia nhỏ, tóm tắt từng phần và tổng hợp:
Tải nội dung trang web.
Chia thành các chunk có kích thước kiểm soát được.
Tóm tắt ban đầu cho mỗi chunk (map).
Tổng hợp tất cả các tóm tắt ban đầu (reduce).
Nếu ...
Đăng vào ngày 31 tháng 5 lúc 16:31
Đánh giá và thực hiện công cụ tự động hóa để thu thập thông tin sản phẩm từ JD
Xác định yêu cầu
Xác định các sản phẩm trên JD, thu thập tên và giá của mỗi sản phẩm.
Phân tích chiến lược
Chiến lược thu thập dữ liệu bao gồm:
Truy cập trang chủ JD.
Nhập từ khóa tìm kiếm, chuyển đến trang cần thu thập.
Trích xuất thông tin sản phẩm từ trang.
Cuộn trang để tải thêm dữ liệu và tiếp tục thu thập thông tin.
Thực hiệ ...
Đăng vào ngày 23 tháng 5 lúc 12:03
Hệ thống giám sát xếp hạng từ khóa Amazon: Giải pháp kỹ thuật toàn diện với Scrape API
Thẻ bài viết: Python API Amazon Giám sát dữ liệu Web Scraping Tự động hóa
Mức độ khó: ⭐⭐⭐ Trung cấp
Thời gian đọc: Khoảng 20 phút
Số dòng code: 600+ dòng hoàn chỉnh
Mục lục
I. Bối cảnh kỹ thuật và phân tích yêu cầu
II. Thiết kế kiến trúc hệ thống
III. Thực hiện chức năng cốt lõi
IV. Phương án tối ưu hóa hiệu năng
V. Triển khai môi trường ...
Đăng vào ngày 19 tháng 5 lúc 01:51