Transformers - Thành phố Cuồng loạn | Nơi Những Ý Tưởng Kỳ Lạ Trở Thành Mã

Transformers

Chi tiết về presence_penalty, frequency_penalty và repetition_penalty trong mô hình ngôn ngữ

Khi làm việc với các mô hình ngôn ngữ lớn, đặc biệt là qua API, bạn sẽ gặp ba tham số quen thuộc: presence_penalty, frequency_penalty và repetition_penalty. Nhiều tài liệu chỉ giải thích sơ lược rằng cả ba đều dùng để giảm lặp từ, nhưng sự khác biệt cụ thể thường không được đề cập. Bài viết này sẽ phân tích chi tiết từ mã nguồn thực tế, giúp bạ ...

Đăng vào ngày 25 tháng 6 lúc 09:29

Tối ưu hóa mô hình tiền huấn luyện bằng Transformers và PyTorch

Tối ưu hóa mô hình tiền huấn luyện Để sử dụng thư viện Transformers, cần nắm vững kiến thức cơ bản về PyTorch. Hướng dẫn chi tiết: Chương 6 của khóa học Transformers - Kiến thức PyTorch cần thiết Chuẩn bị dữ liệu Ta sử dụng nhiệm vụ xác định tính đồng nghĩa (mỗi lần đầu vào hai câu, xác định xem chúng có phải là đồng nghĩa không). Dữ liệu sẽ ...

Đăng vào ngày 22 tháng 6 lúc 09:41

Tích hợp mô hình ngôn ngữ lớn địa phương (Qwen, GLM4) với LangChain

Khi sử dụng các mô hình ngôn ngữ lớn như GLM-4-9B hoặc Qwen-7B-Chat được tải xuống cục bộ trong LangChain, người dùng thường gặp lỗi tương thích. Dưới đây là hướng dẫn chi tiết cách khắc phục và tích hợp thành công. 1. Tích hợp GLM-4-9B-Chat với LangChain Để sử dụng mô hình GLM-4-9B-Chat trong LangChain, cần tạo một lớp LLM tùy chỉnh kế thừa t ...

Đăng vào ngày 18 tháng 6 lúc 19:15

Tinh chỉnh mô hình ngôn ngữ lớn với thư viện Hugging Face

1. Môi trường huấn luyện được đề xuất Để tối ưu chi phí và tận dụng tài nguyên miễn phí, Google Colab và Kaggle là hai lựa chọn hàng đầu. Cả hai nền tảng này đều cung cấp GPU miễn phí hoặc với chi phí thấp. Google Colab: Với bản Pro+ (khoảng 300 VNĐ/tháng), người dùng có thể truy cập GPU A100 40GB, mặc dù có giới hạn thời gian sử ...

Đăng vào ngày 18 tháng 6 lúc 01:07

Giải quyết vấn đề độ chính xác của mô hình sau khi huấn luyện LLM

Khi tiếp tục tiền huấn luyện (continual pre-training) dựa trên mô hình Qwen2.5-coder, trọng số của mô hình được lưu trữ tăng gấp đôi so với phiên bản gốc (Qwen2.5-coder 3b có kích thước 5 GB, sau khi huấn luyện và lưu trữ bằng safetensor là hơn 10 GB). Vấn đề này được phát hiện ngay sau khi hoàn thành quá trình huấn luyện, nhưng vì nó vẫn hoạt ...

Đăng vào ngày 9 tháng 6 lúc 17:36

Mô hình BTLM 3B: Hiệu suất ngang 7B, xử lý văn bản dài 8K với bộ nhớ chỉ 3GB

Bạn đang tìm kiếm một mô hình ngôn ngữ mạnh mẽ nhưng nhẹ nhàng về tài nguyên? BTLM-3B-8k-base là giải pháp đột phá — chỉ với 3 tỷ tham số, nó đạt hiệu năng tương đương mô hình 7B, hỗ trợ độ dài ngữ cảnh lên tới 8.000 token và tiêu thụ chưa đến 3GB RAM khi lượng tử hóa 4-bit. Bài viết này hướng dẫn triển khai thực tế từ cấu hình môi trường đến t ...

Đăng vào ngày 6 tháng 6 lúc 19:08

Sử dụng mô hình GPT để tạo văn bản tiếng Trung

Tạo lời nhạc cổ điển Hiển thị mã nguồn # Mô hình tạo lời nhạc tiếng Trung from transformers import GPT2LMHeadModel, BertTokenizer, TextGenerationPipeline bo_token = BertTokenizer.from_pretrained(r"D:\PycharmProjects\demo_16\model\models--uer--gpt2-chinese-lyric\snapshots\4a42fd76daab07d9d7ff95c816160cfb7c21684f") mang_luoi = GPT2LMHeadModel.fr ...

Đăng vào ngày 6 tháng 6 lúc 04:10

Hướng dẫn sử dụng mô hình Hugging Face với Transformers trong Python

Cài đặt môi trường cần thiết Để làm việc với các mô hình ngôn ngữ từ thư viện Hugging Face, bạn cần cài đặt một số gói chính như sau: pip install transformers datasets tokenizers Tải mô hình và bộ tách từ xuống máy cục bộ Sử dụng phương thức from_pretrained để tải mô hình và tokenizer về một thư mục cụ thể nhằm tái sử dụng mà k ...

Đăng vào ngày 3 tháng 6 lúc 20:59

Mở Rộng Độ Dài Chuỗi Cho Mô Hình BERT Trong Huấn Luyện

Giới thiệu Mô hình BERT tiêu chuẩn thường giới hạn độ dài chuỗi đầu vào ở mức 512 token. Tuy nhiên, trong nhiều bài toán thực tế, dữ liệu văn bản có thể dài hơn đáng kể. Để giải quyết vấn đề này, chúng ta cần điều chỉnh tham số max_position_embeddings trong cấu hình mô hình và tùy chỉnh quá trình huấn luyện để phù hợp với độ dài mới. 1. Xây dự ...

Đăng vào ngày 25 tháng 5 lúc 19:37

Thẻ Phổ Biến