Triển khai chuyển đổi giọng nói thành văn bản với Whisper và FastAPI

Whisper là mô hình nhận dạng giọng nói đa năng được huấn luyện trên tập dữ liệu âm thanh đa dạng. Mô hình transformer sequence-to-sequence này xử lý nhiều tác vụ bao gồm: Nhận dạng giọng nói đa ngôn ngữ Dịch giọng nói Nhận diện ngôn ngữ Phát hiện hoạt động giọng nói Cài đặt phụ thuộc fastapi==0.112.1 uvicorn==0.30.6 git+https://github.com/op ...

Đăng vào ngày 29 tháng 5 lúc 22:30

Hướng dẫn tích hợp từ khóa đánh thức giọng nói trên Linux với FunASR

Tích hợp hệ thống nhận diện từ khóa giọng nói ngoại tuyến trên bo mạch Ubuntu RK3588 sử dụng FunASR RK3588 là một vi xử lý hiệu suất cao, khi kết hợp với công cụ FunASR có thể thực hiện chức năng nhận diện từ khóa giọng nói một cách hiệu quả mà không cần kết nối internet. Dưới đây là hướng dẫn triển khai chi tiết: 1. Chuẩn bị phần cứng Lựa c ...

Đăng vào ngày 24 tháng 5 lúc 17:42

Tối ưu hiệu năng và tích hợp SenseVoice-Small trong dự án C++

Công nghệ nhận dạng giọng nói ngày càng được ứng dụng rộng rãi — từ thiết bị gia đình thông minh, hệ thống xe hơi, đến trợ lý ảo và ghi âm hội nghị. SenseVoice-Small là mô hình nhẹ, phù hợp để triển khai trực tiếp trên thiết bị cục bộ trong các dự án C++. 1. Lợi thế khi sử dụng SenseVoice-Small Mô hình này được tinh chỉnh để hoạt động tốt trên ...

Đăng vào ngày 16 tháng 5 lúc 06:35