Chính thức ra mắt DeepSeek V3.2, Khả năng suy luận tiệm cận GPT-5, bản Speciale giành huy chương vàng Olympic Toán Quốc tế

VNZ-NEWS
DeepSeek chính thức phát hành DeepSeek V3.2 bản ổn định, với khả năng Agent được tăng cường và tích hợp năng lực suy luận sâu.

Hôm nay, hãng đồng thời công bố hai mô hình bản chính thức:

DeepSeek-V3.2 và DeepSeek-V3.2-Speciale.

Phiên bản DeepSeek-V3.2 đã được cập nhật trên trang web, ứng dụng và API. Riêng bản Speciale hiện chỉ mở dưới dạng API tạm thời để phục vụ cộng đồng đánh giá và nghiên cứu.

Deepseek-3.2.webp


DeepSeek-V3.2​


Mục tiêu của DeepSeek-V3.2 là cân bằng giữa khả năng suy luận và độ dài đầu ra, phù hợp cho các nhu cầu sử dụng hằng ngày như hỏi đáp hoặc tác vụ Agent tổng quát.

Trong các bài benchmark về suy luận đã công khai, DeepSeek-V3.2 đạt đến mức hiệu năng ngang GPT-5, chỉ thấp hơn đôi chút so với Gemini-3.0-Pro.

So với Kimi-K2-Thinking, V3.2 đã giảm đáng kể độ dài câu trả lời, giúp giảm chi phí tính toán và thời gian chờ của người dùng.

DeepSeek-V3.2-Speciale​

DeepSeek-V3.2-Speciale được thiết kế nhằm đẩy khả năng suy luận của mô hình mã nguồn mở lên mức tối đa, khám phá giới hạn của mô hình.

V3.2-Speciale là phiên bản tăng cường khả năng “tư duy dài” của DeepSeek-V3.2, đồng thời kết hợp năng lực chứng minh toán học của DeepSeek-Math-V2.

Nhờ vậy, mô hình có khả năng tuân thủ chỉ dẫn tốt hơn, mạnh về chứng minh toán học và kiểm chứng logic. Trên các benchmark suy luận chính thống, hiệu năng của Speciale tiệm cận Gemini-3.0-Pro.


Mô hình này cũng đã lập thành tích nổi bật khi giành huy chương vàng tại:
  • IMO 2025 (Olympic Toán Quốc tế)
  • CMO 2025 (Olympic Toán Trung Quốc)
  • ICPC World Finals 2025 (Chung kết toàn cầu lập trình sinh viên quốc tế)
  • IOI 2025 (Olympic Tin học Quốc tế)

Trong đó, kết quả ICPC và IOI đạt lần lượt mức tương đương hạng 2 và hạng 10 của thí sinh con người.

DeepSeek cho biết, ở các nhiệm vụ có độ phức tạp rất cao, bản Speciale vượt trội so với bản thường, nhưng mức tiêu thụ token cũng lớn hơn nhiều, dẫn đến chi phí cao.

Hiện tại, DeepSeek-V3.2-Speciale chỉ dành cho nghiên cứu, không hỗ trợ gọi công cụ, và chưa được tối ưu cho các tác vụ đàm thoại hay sáng tác thường ngày.

Khác với các phiên bản trước vốn bị hạn chế trong chế độ “tư duy” (thinking mode) khi sử dụng công cụ, DeepSeek-V3.2 là mô hình đầu tiên của hãng hỗ trợ đồng thời cả hai: suy nghĩ + dùng công cụ trong cả thinking mode và non-thinking mode.

Hệ thống huấn luyện Agent hoàn toàn mới​


DeepSeek công bố một phương pháp tổng hợp dữ liệu huấn luyện Agent quy mô lớn, tạo ra một lượng lớn nhiệm vụ RL dạng “khó trả lời – dễ kiểm chứng” với:
  • 1800+ môi trường
  • 85.000+ chỉ dẫn phức tạp
Nhờ đó, khả năng tổng quát hóa của mô hình tăng mạnh. DeepSeek-V3.2 đạt mức điểm cao nhất trong các đánh giá Agent của mô hình mã nguồn mở, thu hẹp đáng kể khoảng cách với mô hình đóng.

Điểm đáng chú ý: V3.2 không được huấn luyện đặc biệt để làm tốt những bộ test này, nhưng vẫn đạt kết quả vượt trội.

Tích hợp thinking mode với Claude Code​


Chế độ suy nghĩ của DeepSeek-V3.2 hiện hỗ trợ cả Claude Code.

Người dùng có thể:
  • đổi tên mô hình thành deepseek-reasoner, hoặc
  • nhấn Tab trong CLI của Claude Code để bật chế độ thinking.
Tuy nhiên, thinking mode chưa tương thích tốt với các công cụ dùng chuẩn gọi không tiêu chuẩn như Cline hay RooCode.

DeepSeek khuyến nghị người dùng tiếp tục dùng non-thinking mode khi làm việc với các công cụ dạng này.
Các bạn có thể tham khảo thêm thông tin tại đây

DeepSeek-V3.2​

DeepSeek-V3.2-Speciale​

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale