Giải quyết vấn đề độ chính xác của mô hình sau khi huấn luyện LLM
Khi tiếp tục tiền huấn luyện (continual pre-training) dựa trên mô hình Qwen2.5-coder, trọng số của mô hình được lưu trữ tăng gấp đôi so với phiên bản gốc (Qwen2.5-coder 3b có kích thước 5 GB, sau khi huấn luyện và lưu trữ bằng safetensor là hơn 10 GB). Vấn đề này được phát hiện ngay sau khi hoàn thành quá trình huấn luyện, nhưng vì nó vẫn hoạt ...
Đăng vào ngày 9 tháng 6 lúc 17:36