Khi các ứng dụng trí tuệ nhân tạo tạo sinh ngày càng phổ biến, việc đảm bảo an toàn cho mô hình ngôn ngữ lớn (LLM) trở thành thách thức then chốt đối với doanh nghiệp. Các rủi ro như nội dung độc hại, rò rỉ dữ liệu hay tấn công qua prompt đòi hỏi giải pháp chuyên biệt. Để giải quyết vấn đề này, JD.com đã giới thiệu JoySafety — một khung bảo mật mã nguồn mở dành riêng cho LLM.
JoySafety hiện đang được triển khai trong nhiều hệ thống nội bộ của JD.com, bao gồm trợ lý mua sắm AI, chatbot hỗ trợ logistics, tư vấn y tế, công cụ hỗ trợ bán hàng, và các dịch vụ pháp lý. Hệ thống xử lý hàng trăm triệu yêu cầu mỗi ngày và đạt tỷ lệ chặn tấn công vượt 95%.
Khung này sử dụng chiến lược phản hồi đa chiều để đảm bảo đầu ra của mô hình tuân thủ quy định an toàn: chặn ngay lập tức nội dung nguy hiểm, trả lời thay bằng tri thức chuẩn hóa, hoặc điều hướng câu trả lời theo hướng tích cực. JoySafety hỗ trợ nhiều mô-đun nguyên tử dựa trên các kiến trúc như BERT, FastText và Transformer, đồng thời cung cấp khả năng mở rộng cao và dễ tích hợp.
Tính năng nổi bật
Mức độ sản xuất
- Đã được kiểm chứng trong môi trường sản xuất thực tế tại JD.com
- Hỗ trợ mở rộng ngang để đáp ứng lưu lượng cao
- Cập nhật chính sách trực tiếp mà không cần khởi động lại dịch vụ
- Các mô-đun có thể thay thế nóng (hot-swappable) mà không làm gián đoạn hệ thống
Khả năng mở rộng
- Giao diện chuẩn cho các mô-đun nguyên tử, dễ dàng tích hợp mô hình mới
- Hỗ trợ triển khai tập trung hoặc phân tán
- Cơ chế phát hiện bất đồng bộ giúp tăng thông lượng xử lý
- Chiến lược phát hiện theo cửa sổ để cân bằng giữa hiệu năng và độ chính xác
Dễ sử dụng
- Khởi động nhanh bằng Docker Compose mà không cần cấu hình phức tạp
- Giao diện API chuẩn, dễ tích hợp vào hệ thống hiện có
- Hỗ trợ biên soạn luồng xử lý dưới dạng đồ thị có hướng (DAG)
Công nghệ cốt lõi
- Phát hiện rủi ro trong hội thoại đa vòng: Nhận diện mối đe dọa xuyên suốt chuỗi tương tác người dùng.
- Chế độ xuất bất đồng bộ Free-Taxi: Tăng tốc độ phản hồi mà vẫn đảm bảo an toàn.
- Ma trận chiến lược phản hồi:
- Chặn chính xác nội dung nguy hiểm
- Trả lời thay bằng cơ sở tri thức an toàn
- Tự động điều chỉnh và hướng dẫn câu trả lời phù hợp
Bắt đầu nhanh
Yêu cầu hệ thống
- git
- git-lfs (để tải mô hình)
- docker & docker-compose
Các bước thiết lập
# Clone mã nguồn
git clone https://github.com/MaoTouHU/JoySafety.git
cd JoySafety
export SAFETY_ROOT_PATH=$(pwd)
# Cài đặt git-lfs và tải mô hình từ Hugging Face
git lfs install
git clone https://huggingface.co/jdopensource/JoySafety ${SAFETY_ROOT_PATH}/data/models
# Cấu hình đường dẫn mô hình
cp .env.example .env
# Sửa SAFETY_MODEL_DIR trong file .env để trỏ đến thư mục models
# Khởi động dịch vụ
docker-compose --env-file .env up
Sau khi khởi động, có thể kiểm thử API thông qua các ví dụ trong thư mục quickstart/.
Hướng dẫn sử dụng
Để tích hợp JoySafety vào hệ thống nghiệp vụ:
- Đăng ký mô-đun nguyên tử (nếu chưa có) — xem tài liệu
function_api.md - Tạo nghiệp vụ mới — xem
business_api.md - Gán chính sách xử lý cho nghiệp vụ — xem
dag_api.mdvà các mẫu cấu hình
Luồng xử lý được định nghĩa dưới dạng DAG. Mỗi nút (node) gồm hai phần: function (khả năng xử lý) và router (quyết định nút tiếp theo dựa trên kết quả). Router phổ biến bao gồm stupid_end (kết thúc ngay) và groovy (dùng script Groovy để định tuyến).
Quản lý từ nhạy cảm được tổ chức theo nhóm và nghiệp vụ. Từ thuộc nghiệp vụ all sẽ áp dụng cho mọi nghiệp vụ — chi tiết tại sensitive_words_api.md.
Kiến trúc hệ thống
.
├── deploy
│ ├── docker-compose.yml
│ └── thirdparty
├── safety
│ ├── safety-admin # Giao diện quản trị
│ ├── safety-api # API giao tiếp bên ngoài
│ ├── safety-basic # Lõi xử lý chính
│ ├── safety-demo # Ví dụ tích hợp đa ngôn ngữ
│ └── safety-skills # Triển khai các khả năng an toàn
└── quickstart # Tài liệu và script dùng thử
Kế hoạch phát triển
- Xuất bản mô hình đánh giá an toàn dành riêng cho LLM
- Cung cấp bộ công cụ kiểm định rủi ro trước khi triển khai mô hình
- Phát triển lớp bảo vệ dành riêng cho agent AI (xác thực, quyền, bảo vệ dữ liệu, v.v.)