🔥 WINXDVD 2025 CHRISTMAS CALENDAR tặng 25 phần mềm bản quyền miễn phí với tổng giá trị 1.095 USD 🔥
📣 Miễn phí EaseUS Partition Master Professional Quản lý phân vùng ổ cứng chuyên nghiệp

Thread starter VNZ-NEWS
Ngày gửi 27/8/25
Nhập từ khóa

ai microsoft ai tạo âm thanh microsoft vibevoice-1.5b

Microsoft ra mắt mã nguồn mở VibeVoice-1.5B: Mô hình âm thanh có thể tạo ra giọng nói trò chuyện 4 người trong 90 phút

VNZ-NEWS 27/8/25

Microsoft đã công bố mô hình chuyển văn bản thành giọng nói (TTS) mã nguồn mở VibeVoice-1.5B. Mô hình này có khả năng tạo ra giọng nói tự nhiên kéo dài tối đa 90 phút, hỗ trợ tối đa 4 người nói khác nhau, đồng thời tích hợp tính năng chuyển ngữ (cross-lingual) và tổng hợp giọng hát.

Kiến trúc mô hình

Nền tảng: VibeVoice-1.5B được xây dựng dựa trên mô hình ngôn ngữ Qwen2.5 với 1.5 tỷ tham số.
Xử lý kép: Kết hợp hai bộ tokenizer – Acoustic (Âm học) và Semantic (Ngữ nghĩa) – hoạt động ở tần số thấp 7.5Hz.
- Acoustic tokenizer: Sử dụng kiến trúc σ-VAE, nén tín hiệu âm thanh gốc 24kHz xuống tỷ lệ 1/3200.
- Semantic tokenizer: Huấn luyện thông qua tác vụ trung gian nhận dạng giọng nói, nhằm giữ lại ngữ nghĩa hội thoại.
Giải mã (Decoder): Tích hợp diffusion decoder với 123 triệu tham số, kết hợp cùng classifier-free guidance và DPM-Solver, giúp nâng cao chất lượng âm thanh và chi tiết giọng nói.
Đào tạo ngữ cảnh dài: Để đảm bảo tính liền mạch trong hội thoại dài và nhất quán giọng nói theo từng người, mô hình được huấn luyện với ngữ cảnh mở rộng dần từ 4k tokens lên 65k tokens.
Đa người nói & hội thoại tự nhiên: Kiến trúc hỗ trợ luân phiên nhiều người nói, mô phỏng kịch bản hội thoại thực tế, đồng thời cho phép tạo âm thanh dài ở chế độ streaming, đặt nền móng cho TTS thời gian thực.

Giới hạn hiện tại

Chỉ hỗ trợ tiếng Anh và tiếng Trung.
Với các ngôn ngữ khác, có thể xuất hiện nội dung sai lệch hoặc không phù hợp.
Chưa hỗ trợ giọng nói chồng lấn, hiệu ứng nền hoặc nhạc.
Microsoft cấm tuyệt đối sử dụng mô hình cho các mục đích:
- Giả mạo giọng nói,
- Phát tán thông tin sai lệch,
- Vượt qua hệ thống xác thực.
Người dùng được nhắc nhở tuân thủ pháp luật và phải ghi rõ nguồn gốc AI khi phát hành nội dung.

Hướng ứng dụng & lộ trình phát triển

Microsoft cho biết VibeVoice-1.5B chủ yếu phục vụ nghiên cứu và cộng đồng nhà phát triển, đặc biệt trong các lĩnh vực:

Sản xuất podcast,
AI hội thoại,
Tạo nội dung giọng nói.

Trong tương lai, Microsoft sẽ ra mắt phiên bản 7B với số tham số lớn hơn, hỗ trợ tương tác độ trễ thấp và tổng hợp thời gian thực với độ trung thực cao, mở rộng hơn nữa các kịch bản ứng dụng.
Thông tin thêm về mô hình VibeVoice-1.5B các bạn tham khảo thêm tại đây

Huawei ra mắt openPangu-Embedded-7B-v1.1: Mô hình AI mở 7B cho phép “tư duy nhanh – chậm” linh hoạt, độ chính xác không đổi

Trả lời

You must log in or register to reply here.

BÀI MỚI ĐANG THẢO LUẬN

Adblocker detected! Please consider reading this notice.

Microsoft ra mắt mã nguồn mở VibeVoice-1.5B: Mô hình âm thanh có thể tạo ra giọng nói trò chuyện 4 người trong 90 phút

Kiến trúc mô hình

Giới hạn hiện tại

Hướng ứng dụng & lộ trình phát triển

Chủ Đề Đang Thảo Luận

Adblocker detected! Please consider reading this notice.

Microsoft ra mắt mã nguồn mở VibeVoice-1.5B: Mô hình âm thanh có thể tạo ra giọng nói trò chuyện 4 người trong 90 phút

Kiến trúc mô hình​

​

Giới hạn hiện tại​

Hướng ứng dụng & lộ trình phát triển​

Chủ Đề Đang Thảo Luận

Kiến trúc mô hình

Giới hạn hiện tại

Hướng ứng dụng & lộ trình phát triển