Triển khai chuyển đổi giọng nói thành văn bản với Whisper và FastAPI
Whisper là mô hình nhận dạng giọng nói đa năng được huấn luyện trên tập dữ liệu âm thanh đa dạng. Mô hình transformer sequence-to-sequence này xử lý nhiều tác vụ bao gồm:
Nhận dạng giọng nói đa ngôn ngữ
Dịch giọng nói
Nhận diện ngôn ngữ
Phát hiện hoạt động giọng nói
Cài đặt phụ thuộc
fastapi==0.112.1
uvicorn==0.30.6
git+https://github.com/op ...
Đăng vào ngày 29 tháng 5 lúc 22:30