DeepSeek-V3 được xây dựng dựa trên kiến trúc của Mixtral ?

VNZ-TECHS
“DeepSeek-V3 được xây dựng dựa trên kiến trúc của chúng tôi”, phát ngôn gây sốc của CEO Mistral Arthur Mensch khiến cộng đồng dậy sóng.

Câu nói này vừa được CEO được ví như “OpenAI phiên bản châu Âu” thốt ra đã ngay lập tức làm bùng nổ tranh cãi.


Ai chưa kịp hóng drama thì đừng vội, chúng ta cùng lần lại câu chuyện từ đầu.

Trong một cuộc phỏng vấn gần đây, khi được hỏi đánh giá thế nào về sự phát triển mạnh mẽ của AI mã nguồn mở tại Trung Quốc, Arthur Mensch đồng sáng lập kiêm CEO Mistral – đã trả lời như sau:

Trung Quốc rất mạnh trong lĩnh vực AI. Chúng tôi là một trong những công ty đầu tiên phát hành mô hình mã nguồn mở, và họ nhận ra đây là một chiến lược rất tốt.

Mã nguồn mở không phải là cạnh tranh thực sự, mọi người liên tục tiến bộ dựa trên nền tảng của nhau.

Ví dụ, đầu năm 2024 chúng tôi đã phát hành mô hình Mixture of Experts (MoE) thưa đầu tiên. DeepSeek-V3 và các phiên bản sau đó đều được xây dựng trên nền tảng này. Chúng sử dụng cùng một kiến trúc, và chúng tôi đã công khai mọi thứ cần thiết để tái tạo kiến trúc đó.

Arthur Mensch rất tự tin, nhưng cộng đồng mạng nghe xong thì lập tức phản ứng: khoan đã, có gì đó không ổn.



Chưa cần nói đến việc thời điểm công bố bài báo MoE của DeepSeek và bài Mixtral mà Arthur Mensch nhắc tới chỉ cách nhau đúng 3 ngày, nếu đào sâu kỹ thì có thể thấy hai kiến trúc này thực chất không hề giống nhau về mặt tư duy thiết kế.


𝕏@Sebastian Raschka​
Chưa kể trước đó, Mistral 3 Large từng bị phát hiện là gần như “sao chép” kiến trúc mà DeepSeek-V3 sử dụng…

Dù thế nào đi nữa, khi phát ngôn này xuất hiện, phản ứng đầu tiên của cộng đồng kỹ thuật là kiểm chứng một cách nghiêm túc. Cả hai bài báo đều có trên arXiv, vậy thì cứ thế mà mổ xẻ trực tiếp.

Arthur Mensch nói không sai ở một điểm: hai bài báo được công bố cách nhau 3 ngày này đều nghiên cứu hệ thống MoE thưa (SMoE), cùng mục tiêu giảm chi phí tính toán thông qua kích hoạt thưa, đồng thời nâng cao năng lực mô hình.

Nhưng điểm xuất phát của hai bên đã khác nhau. Mixtral thiên về tư duy kỹ thuật, tập trung chứng minh rằng một mô hình nền tảng đủ mạnh kết hợp với công nghệ MoE đã chín muồi có thể vượt qua các mô hình dense lớn hơn.

Trong khi đó, trọng tâm của DeepSeek nằm ở đổi mới thuật toán. Bài báo của họ nhằm giải quyết các vấn đề của MoE truyền thống như chuyên gia “học quá tạp” và “học trùng lặp”, về bản chất là một sự tái thiết kế kiến trúc MoE.

Sự khác biệt này thể hiện rõ hơn qua các công thức toán học.




Công thức toán học của Mixtral


Công thức toán học của Deepseek


Cả hai đều sử dụng bộ định tuyến Top-K theo phong cách GShard. Tuy nhiên, DeepSeek đã thay đổi cơ chế gate và cấu trúc chuyên gia trong kiến trúc MoE truyền thống.

Về độ hạt và số lượng chuyên gia, Mixtral vẫn theo thiết kế MoE tiêu chuẩn, mỗi chuyên gia là một khối FFN hoàn chỉnh.

DeepSeek thì đề xuất việc chia nhỏ chuyên gia theo mức độ hạt mịn hơn. Trong khi giữ nguyên tổng số tham số, họ chia các chuyên gia lớn thành nhiều chuyên gia nhỏ. Nhờ việc chia nhỏ này, các chuyên gia có thể được kết hợp linh hoạt hơn, từ đó học tri thức chính xác hơn.

Về cơ chế định tuyến, trong Mixtral mọi chuyên gia đều bình đẳng, mạng định tuyến sẽ chọn chuyên gia dựa trên đầu vào.

DeepSeek giới thiệu khái niệm chuyên gia chia sẻ. Các chuyên gia này không tham gia định tuyến mà luôn được kích hoạt, trong khi các chuyên gia định tuyến sẽ tham gia cạnh tranh Top-K.

Điều này dẫn tới việc phân bố tri thức trong Mixtral là dạng phẳng, tri thức chung và tri thức đặc thù trộn lẫn trong cùng một chuyên gia. Ngược lại, DeepSeek tách bạch rõ ràng: chuyên gia chia sẻ phụ trách tri thức chung, còn chuyên gia định tuyến xử lý tri thức đặc thù.

Ngoài ra, có cư dân mạng chỉ ra rằng bài báo “Mixtral of Experts” thực tế gần như không đề cập chi tiết huấn luyện, chỉ nói rằng “chúng tôi sử dụng kiến trúc GShard của Google, dùng bộ định tuyến đơn giản hơn và mỗi tầng đều áp dụng MoE”. Còn dữ liệu, siêu tham số, số token huấn luyện, thí nghiệm ablation… thì hoàn toàn không được đề cập.

Điều thú vị là, Mistral 3 Large được công bố vào tháng 12 năm 2025 lại bị phát hiện là trực tiếp sử dụng kiến trúc của DeepSeek-V3.

Không thể phủ nhận Mistral có đóng góp trong việc phổ biến MoE, nhưng đúng như nhiều người nói, DeepSeek cuối cùng đã tạo ra ảnh hưởng lớn hơn rõ rệt trong các công nghệ như MoE thưa và MLA.

Dù sao thì, khẩu chiến cũng chẳng giải quyết được gì. Cuộc cạnh tranh xoay quanh các mô hình nền tảng rõ ràng vẫn còn rất nhiều cao trào phía trước.