Nếu bạn đang tìm một giải pháp
Speech-to-Text / Text-to-Speech chất lượng cao, miễn phí và có thể tự triển khai, thì dự án VibeVoice đang nổi lên như một cái tên cực kỳ đáng chú ý trong cộng đồng dev.
Bộ công cụ này bao gồm 3 thành phần chính, phục vụ gần như toàn bộ nhu cầu xử lý giọng nói hiện nay:
VibeVoice-ASR: Chuyển giọng nói thành văn bản cực chi tiết
VibeVoice-ASR (Speech-to-Text) cho phép bạn nhập file audio dài tới
60 phút và chuyển thành văn bản với độ chính xác cao.
Điểm “ăn tiền” nằm ở:
- Diarization (phân biệt người nói): tự động tách Speaker 0, Speaker 1…
- Timestamp chuẩn từng câu: cực kỳ hữu ích khi xử lý họp, phỏng vấn, podcast
Đây là tính năng mà nhiều dịch vụ trả phí như Deepgram đang cung cấp — nhưng giờ bạn có thể tự host.
VibeVoice-TTS: Text-to-Speech đa giọng, tự nhiên
Không chỉ dừng lại ở chuyển giọng nói thành chữ, VibeVoice còn hỗ trợ chiều ngược lại.
Với VibeVoice-TTS:
- Hỗ trợ multi-speaker (nhiều giọng nói)
- Có thể tạo audio dài tới 90 phút
- Giọng đọc tự nhiên, ít “robot” hơn nhiều tool miễn phí khác
Phù hợp làm:
- Video voice-over
- Podcast AI
- Nội dung tự động
VibeVoice-Streaming: TTS thời gian thực siêu nhanh
Đây là phần cực kỳ đáng giá cho anh em làm AI chatbot.
- Chuyển text → giọng nói theo thời gian thực
- Độ trễ cực thấp chỉ khoảng 0.3 giây
- Gõ tới đâu → phát âm tới đó
Rất hợp để build:
- Bot hội thoại (Conversational AI)
- Trợ lý ảo
- AI voice assistant
Có thể thay thế dịch vụ trả phí?
Điểm đáng chú ý nhất là:
- Hoàn toàn open-source
- Có thể tự triển khai (self-host)
- Tiết kiệm chi phí so với các nền tảng cloud
Nếu test ổn, nhiều khả năng bạn sẽ không cần phụ thuộc vào các dịch vụ như Deepgram nữa — đặc biệt với các dự án lớn cần tối ưu chi phí.
VibeVoice là một bộ công cụ AI giọng nói cực kỳ tiềm năng:
- ASR mạnh, có diarization + timestamp
- TTS tự nhiên, hỗ trợ đa giọng
- Streaming gần như real-time
Nếu bạn làm AI, automation, hoặc content — đây là project rất đáng để thử ngay.
🔗 Link GitHub:
https://github.com/microsoft/VibeVoice
Anh em nào test rồi (đặc biệt tiếng Việt) thì chia sẻ thêm nhé 😃