JoySafety: Khung bảo mật mã nguồn mở cho mô hình ngôn ngữ lớn từ JD.com

Khi các ứng dụng trí tuệ nhân tạo tạo sinh ngày càng phổ biến, việc đảm bảo an toàn cho mô hình ngôn ngữ lớn (LLM) trở thành thách thức then chốt đối với doanh nghiệp. Các rủi ro như nội dung độc hại, rò rỉ dữ liệu hay tấn công qua prompt đòi hỏi giải pháp chuyên biệt. Để giải quyết vấn đề này, JD.com đã giới thiệu JoySafety — một khung bảo mật mã nguồn mở dành riêng cho LLM.

JoySafety hiện đang được triển khai trong nhiều hệ thống nội bộ của JD.com, bao gồm trợ lý mua sắm AI, chatbot hỗ trợ logistics, tư vấn y tế, công cụ hỗ trợ bán hàng, và các dịch vụ pháp lý. Hệ thống xử lý hàng trăm triệu yêu cầu mỗi ngày và đạt tỷ lệ chặn tấn công vượt 95%.

Khung này sử dụng chiến lược phản hồi đa chiều để đảm bảo đầu ra của mô hình tuân thủ quy định an toàn: chặn ngay lập tức nội dung nguy hiểm, trả lời thay bằng tri thức chuẩn hóa, hoặc điều hướng câu trả lời theo hướng tích cực. JoySafety hỗ trợ nhiều mô-đun nguyên tử dựa trên các kiến trúc như BERT, FastText và Transformer, đồng thời cung cấp khả năng mở rộng cao và dễ tích hợp.

Tính năng nổi bật

Mức độ sản xuất

Đã được kiểm chứng trong môi trường sản xuất thực tế tại JD.com
Hỗ trợ mở rộng ngang để đáp ứng lưu lượng cao
Cập nhật chính sách trực tiếp mà không cần khởi động lại dịch vụ
Các mô-đun có thể thay thế nóng (hot-swappable) mà không làm gián đoạn hệ thống

Khả năng mở rộng

Giao diện chuẩn cho các mô-đun nguyên tử, dễ dàng tích hợp mô hình mới
Hỗ trợ triển khai tập trung hoặc phân tán
Cơ chế phát hiện bất đồng bộ giúp tăng thông lượng xử lý
Chiến lược phát hiện theo cửa sổ để cân bằng giữa hiệu năng và độ chính xác

Dễ sử dụng

Khởi động nhanh bằng Docker Compose mà không cần cấu hình phức tạp
Giao diện API chuẩn, dễ tích hợp vào hệ thống hiện có
Hỗ trợ biên soạn luồng xử lý dưới dạng đồ thị có hướng (DAG)

Công nghệ cốt lõi

Phát hiện rủi ro trong hội thoại đa vòng: Nhận diện mối đe dọa xuyên suốt chuỗi tương tác người dùng.
Chế độ xuất bất đồng bộ Free-Taxi: Tăng tốc độ phản hồi mà vẫn đảm bảo an toàn.
Ma trận chiến lược phản hồi:
- Chặn chính xác nội dung nguy hiểm
- Trả lời thay bằng cơ sở tri thức an toàn
- Tự động điều chỉnh và hướng dẫn câu trả lời phù hợp

Bắt đầu nhanh

Yêu cầu hệ thống

git
git-lfs (để tải mô hình)
docker & docker-compose

Các bước thiết lập

# Clone mã nguồn
git clone https://github.com/MaoTouHU/JoySafety.git
cd JoySafety
export SAFETY_ROOT_PATH=$(pwd)

# Cài đặt git-lfs và tải mô hình từ Hugging Face
git lfs install
git clone https://huggingface.co/jdopensource/JoySafety ${SAFETY_ROOT_PATH}/data/models

# Cấu hình đường dẫn mô hình
cp .env.example .env
# Sửa SAFETY_MODEL_DIR trong file .env để trỏ đến thư mục models

# Khởi động dịch vụ
docker-compose --env-file .env up

Sau khi khởi động, có thể kiểm thử API thông qua các ví dụ trong thư mục quickstart/.

Hướng dẫn sử dụng

Để tích hợp JoySafety vào hệ thống nghiệp vụ:

Đăng ký mô-đun nguyên tử (nếu chưa có) — xem tài liệu function_api.md
Tạo nghiệp vụ mới — xem business_api.md
Gán chính sách xử lý cho nghiệp vụ — xem dag_api.md và các mẫu cấu hình

Luồng xử lý được định nghĩa dưới dạng DAG. Mỗi nút (node) gồm hai phần: function (khả năng xử lý) và router (quyết định nút tiếp theo dựa trên kết quả). Router phổ biến bao gồm stupid_end (kết thúc ngay) và groovy (dùng script Groovy để định tuyến).

Quản lý từ nhạy cảm được tổ chức theo nhóm và nghiệp vụ. Từ thuộc nghiệp vụ all sẽ áp dụng cho mọi nghiệp vụ — chi tiết tại sensitive_words_api.md.

Kiến trúc hệ thống

.
├── deploy
│   ├── docker-compose.yml
│   └── thirdparty
├── safety
│   ├── safety-admin     # Giao diện quản trị
│   ├── safety-api       # API giao tiếp bên ngoài
│   ├── safety-basic     # Lõi xử lý chính
│   ├── safety-demo      # Ví dụ tích hợp đa ngôn ngữ
│   └── safety-skills    # Triển khai các khả năng an toàn
└── quickstart           # Tài liệu và script dùng thử

Kế hoạch phát triển

Xuất bản mô hình đánh giá an toàn dành riêng cho LLM
Cung cấp bộ công cụ kiểm định rủi ro trước khi triển khai mô hình
Phát triển lớp bảo vệ dành riêng cho agent AI (xác thực, quyền, bảo vệ dữ liệu, v.v.)

Thẻ: JoySafety LLM security AI safety JD.com open-source AI

Đăng vào ngày 3 tháng 6 lúc 02:03

Thành phố Cuồng loạn