Triển khai chuyển đổi giọng nói thành văn bản với Whisper và FastAPI

Whisper là mô hình nhận dạng giọng nói đa năng được huấn luyện trên tập dữ liệu âm thanh đa dạng. Mô hình transformer sequence-to-sequence này xử lý nhiều tác vụ bao gồm: Nhận dạng giọng nói đa ngôn ngữ Dịch giọng nói Nhận diện ngôn ngữ Phát hiện hoạt động giọng nói Cài đặt phụ thuộc fastapi==0.112.1 uvicorn==0.30.6 git+https://github.com/op ...

Đăng vào ngày 29 tháng 5 lúc 22:30