“DeepSeek Thậm Chí Đã Vượt Qua CUDA” Gây Xôn Xao Cộng Đồng

VNZ-NEWS
Nvidia vừa mới gượng dậy sau cú sụt giảm trên thị trường do DeepSeek-R1 gây ra, nay lại phải đối mặt với áp lực mới? Trang tin công nghệ phần cứng Tom’s Hardware vừa đăng tải một thông tin gây chấn động đầu năm: DeepSeek thậm chí đã vượt qua CUDA, sử dụng ngôn ngữ lập trình cấp thấp hơn để tối ưu hóa hệ thống. Những chi tiết mới từ bài nghiên cứu về DeepSeek-V3 đã bị khai thác và lan truyền rộng rãi.


Theo báo cáo từ Mirae Asset Securities Research (Hàn Quốc), DeepSeek-V3 có hiệu suất phần cứng cao hơn 10 lần so với Meta và các công ty khác, bởi vì họ đã xây dựng lại mọi thứ từ con số 0.

Khi huấn luyện DeepSeek-V3 trên GPU Nvidia H800, nhóm nghiên cứu đã tùy chỉnh 20 trong số 132 bộ xử lý đa luồng (SMs) thành các đơn vị chuyên phụ trách giao tiếp giữa các máy chủ, thay vì xử lý tác vụ tính toán.


Điều này đồng nghĩa với việc họ đã vượt qua giới hạn tốc độ truyền thông giữa các phần cứng. Họ đã thực hiện điều này không phải bằng CUDA, mà bằng PTX (Parallel Thread Execution) – một ngôn ngữ lập trình ở cấp độ gần với Assembly, cho phép tối ưu hóa chi tiết đến mức độ phân bổ thanh ghi (register) và điều chỉnh từng luồng (Thread) cũng như nhóm luồng (Warp).


Tuy nhiên, đây là một cách tiếp cận cực kỳ phức tạp và khó bảo trì, bởi vì hầu hết các công ty trong ngành đều chọn sử dụng CUDA – một ngôn ngữ lập trình cấp cao hơn, dễ phát triển và bảo trì hơn.

Nói cách khác, DeepSeek đã tối ưu hóa đến mức tận cùng.


CUDA Không Còn Là “Hàng Rào Bảo Vệ” Của Nvidia?


Một số người dùng nhận xét rằng nếu có một nhóm kỹ sư từ bỏ CUDA vì cho rằng nó quá chậm để chuyển sang PTX, thì đó chắc chắn là các cựu chuyên gia giao dịch lượng tử.


Ban-sao-Anh-man-hinh-2025-01-29-luc-12.14.52.jpg

Một kỹ sư của Amazon đã đặt ra câu hỏi sâu sắc: Liệu CUDA có còn là “hàng rào bảo vệ” của Nvidia? Nếu các phòng thí nghiệm hàng đầu có thể tận dụng hiệu quả bất kỳ GPU nào mà không cần dựa vào CUDA, thì đây có thể là một thay đổi mang tính cách mạng.


Một số chuyên gia thậm chí còn suy đoán rằng nếu DeepSeek phát triển một giải pháp thay thế CUDA mã nguồn mở, liệu ngành AI có bị đảo lộn hoàn toàn?


DeepSeek Có Thực Sự “Vượt Qua” CUDA Không?


Trước tiên, cần làm rõ rằng PTX vẫn là một phần trong kiến trúc GPU của Nvidia, nó là một lớp trung gian trong mô hình lập trình CUDA, đóng vai trò kết nối mã nguồn cấp cao của CUDA với các tập lệnh phần cứng của GPU.


Về cơ bản, CUDA hoạt động như một giao diện lập trình cấp cao và cung cấp bộ công cụ phát triển dễ sử dụng hơn, trong khi PTX giống như một ngôn ngữ Assembly chuyên biệt, giúp tối ưu hóa ở cấp thấp hơn.



Thông thường, mã nguồn CUDA được biên dịch thành PTX, rồi từ PTX tiếp tục được dịch sang mã máy của GPU (SASS – Streaming ASSembler).



Việc viết mã trực tiếp bằng PTX có nhược điểm lớn là rất khó chuyển đổi sang các kiến trúc GPU khác. Một số chuyên gia trong ngành cho biết mã tối ưu hóa cho H100 có thể không hoạt động hiệu quả trên GPU khác, hoặc thậm chí không thể chạy được.


DeepSeek Đã Chuẩn Bị Cho Một Thế Giới “Hậu Nvidia”?

Điều đáng chú ý là DeepSeek không chỉ dừng lại ở Nvidia, họ đã hợp tác chặt chẽ với AMD, Huawei và các nhà sản xuất chip khác để đảm bảo khả năng tương thích rộng rãi hơn.
Một số chuyên gia còn đặt ra giả thuyết táo bạo: Liệu AI có thể tự học viết mã ở cấp độ Assembly để tự tối ưu hóa chính nó?


Trên thực tế, chúng ta đã chứng kiến điều này với DeepSeek-R1:


Một Pull Request (PR) mới trên dự án Llama.cpp đã sử dụng lệnh SIMD (cho phép một lệnh xử lý nhiều dữ liệu cùng lúc) để cải thiện đáng kể tốc độ của WebAssembly khi thực hiện các phép nhân ma trận.


Điều đặc biệt là 99% mã nguồn trong PR này do DeepSeek-R1 tự động viết ra, lập trình viên chỉ thực hiện kiểm tra và tinh chỉnh.

Người sáng lập Llama.cpp sau khi kiểm tra đã nhận xét rằng:

“Kết quả này bùng nổ hơn những gì tôi tưởng tượng.”


DeepSeek Đang Tạo Ra Một Cuộc Cách Mạng?

DeepSeek chưa hoàn toàn thay thế CUDA
, nhưng họ đang chứng minh rằng có thể tối ưu hóa AI theo cách chưa từng có, thậm chí không cần dựa vào công nghệ lõi của Nvidia.

Nếu xu hướng này tiếp tục, không chỉ Nvidia mà cả ngành công nghiệp AI có thể phải đối mặt với một cuộc cách mạng lớn trong tương lai gần. 🚀
 
Trả lời

VNZ-NEWS

Administrator
Thành viên BQT
 

Hamano Kaito

Moderator
ok. con Ai này còn có thể tự viết lại mã nguồn để tối ưu hoá bản thân cho phù hợp với phần cứng.
tôi đã từng nghĩ chuyện này sẽ đến sau 5 - 10 năm nữa, không ngờ mới mấy tháng đã tới đây rồi :confused:
China họ giỏi copy và nâng cấp lên nhưng đến 1 lúc nào đó sẽ chững lại...