Microsoft ra mắt mã nguồn mở VibeVoice-1.5B: Mô hình âm thanh có thể tạo ra giọng nói trò chuyện 4 người trong 90 phút

VNZ-NEWS
Microsoft đã công bố mô hình chuyển văn bản thành giọng nói (TTS) mã nguồn mở VibeVoice-1.5B. Mô hình này có khả năng tạo ra giọng nói tự nhiên kéo dài tối đa 90 phút, hỗ trợ tối đa 4 người nói khác nhau, đồng thời tích hợp tính năng chuyển ngữ (cross-lingual) và tổng hợp giọng hát.

VibeVoice1.5b.webp

Kiến trúc mô hình​

  • Nền tảng: VibeVoice-1.5B được xây dựng dựa trên mô hình ngôn ngữ Qwen2.5 với 1.5 tỷ tham số.
  • Xử lý kép: Kết hợp hai bộ tokenizer – Acoustic (Âm học) và Semantic (Ngữ nghĩa) – hoạt động ở tần số thấp 7.5Hz.
    • Acoustic tokenizer: Sử dụng kiến trúc σ-VAE, nén tín hiệu âm thanh gốc 24kHz xuống tỷ lệ 1/3200.
    • Semantic tokenizer: Huấn luyện thông qua tác vụ trung gian nhận dạng giọng nói, nhằm giữ lại ngữ nghĩa hội thoại.
  • Giải mã (Decoder): Tích hợp diffusion decoder với 123 triệu tham số, kết hợp cùng classifier-free guidance và DPM-Solver, giúp nâng cao chất lượng âm thanh và chi tiết giọng nói.
  • Đào tạo ngữ cảnh dài: Để đảm bảo tính liền mạch trong hội thoại dài và nhất quán giọng nói theo từng người, mô hình được huấn luyện với ngữ cảnh mở rộng dần từ 4k tokens lên 65k tokens.
  • Đa người nói & hội thoại tự nhiên: Kiến trúc hỗ trợ luân phiên nhiều người nói, mô phỏng kịch bản hội thoại thực tế, đồng thời cho phép tạo âm thanh dài ở chế độ streaming, đặt nền móng cho TTS thời gian thực.


VibeVoice1.5b-a0.webp

Giới hạn hiện tại​

  • Chỉ hỗ trợ tiếng Anh và tiếng Trung.
  • Với các ngôn ngữ khác, có thể xuất hiện nội dung sai lệch hoặc không phù hợp.
  • Chưa hỗ trợ giọng nói chồng lấn, hiệu ứng nền hoặc nhạc.
  • Microsoft cấm tuyệt đối sử dụng mô hình cho các mục đích:
    • Giả mạo giọng nói,
    • Phát tán thông tin sai lệch,
    • Vượt qua hệ thống xác thực.
  • Người dùng được nhắc nhở tuân thủ pháp luật và phải ghi rõ nguồn gốc AI khi phát hành nội dung.

Hướng ứng dụng & lộ trình phát triển​


Microsoft cho biết VibeVoice-1.5B chủ yếu phục vụ nghiên cứu và cộng đồng nhà phát triển, đặc biệt trong các lĩnh vực:
  • Sản xuất podcast,
  • AI hội thoại,
  • Tạo nội dung giọng nói.
Trong tương lai, Microsoft sẽ ra mắt phiên bản 7B với số tham số lớn hơn, hỗ trợ tương tác độ trễ thấp và tổng hợp thời gian thực với độ trung thực cao, mở rộng hơn nữa các kịch bản ứng dụng.
Thông tin thêm về mô hình VibeVoice-1.5B các bạn tham khảo thêm tại đây