Không thua kém hệ thống H100, Mac Studio phiên bản “siêu máy tính” 1.5 TB VRAM khiến tốc độ suy luận AI tăng gấp đôi

VNZ-TECHS
Blogger công nghệ Jeff Geerling đã đăng tải bài viết và video đánh giá, trong đó ông sử dụng 4 chiếc Mac Studio do Apple cung cấp (trang bị chip M3 Ultra) để xây dựng một cụm tính toán, qua đó kiểm nghiệm mức độ cải thiện hiệu năng AI mà Thunderbolt 5 và công nghệ RDMA mang lại trong macOS Tahoe 26.2.


Cụm máy “cao cấp” này gồm 4 Mac Studio dùng chip M3 Ultra (2 máy có 512GB RAM, 2 máy có 256GB RAM), được kết nối với nhau qua Thunderbolt 5, tạo thành một hồ bộ nhớ hợp nhất lên tới 1,5TB. Tổng giá trị phần cứng gần 40.000 USD.

Trong các cụm đa máy, tốc độ giao tiếp giữa các nút thường là yếu tố quyết định hiệu năng tổng thể. Kết nối Ethernet truyền thống thường bị giới hạn ở 10Gb/s, trong khi Thunderbolt 5 được sử dụng trong thử nghiệm này cho phép nâng băng thông lên 80Gb/s. Quan trọng hơn, Apple đã đưa công nghệ RDMA vào hệ điều hành mới. Công nghệ này không cần thông qua quá trình xử lý phức tạp của CPU phía bên kia, cho phép CPU của một nút trong cụm trực tiếp đọc dữ liệu từ bộ nhớ của các nút khác.


Điều này đồng nghĩa với việc bộ nhớ của 4 máy Mac được hợp nhất thành một vùng nhớ dùng chung cực lớn, giúp giảm đáng kể độ trễ, đồng thời tạo nền tảng phần cứng để chạy các mô hình ngôn ngữ lớn (LLM) siêu khủng mà một thiết bị đơn lẻ không thể đảm nhiệm.


Geerling đã sử dụng công cụ mã nguồn mở Exo (hỗ trợ RDMA) và Llama.cpp (không hỗ trợ RDMA) để so sánh tốc độ suy luận mô hình lớn.



Khi chạy mô hình Qwen3 235B, trong điều kiện một nút đơn, Llama.cpp có phần nhỉnh hơn; nhưng khi mở rộng lên 4 nút, hiệu năng của Llama.cpp giảm xuống còn 15,2 tokens/giây, trong khi Exo bật RDMA tăng lên 31,9 tokens/giây, đạt mức gấp đôi hiệu năng.


Khi thử nghiệm DeepSeek V3.1 (671 tỷ tham số), tốc độ suy luận của Exo tăng từ 21,1 tokens/giây ở một nút lên 32,5 tokens/giây ở bốn nút, mức tăng 54,03%. Trong cùng điều kiện bốn nút, Llama.cpp chỉ đạt 14,6 tokens/giây, và khi bật RDMA, hiệu năng tăng vọt 122,6%.


Thử nghiệm cũng đã chạy thành công mô hình Kimi K2 Thinking cấp nghìn tỷ tham số, với tốc độ 28,3 tokens/giây trên bốn nút, qua đó xác nhận tính khả thi của giải pháp này trong việc xử lý các mô hình siêu lớn.

Dù kết quả rất ấn tượng, giải pháp này vẫn có những rào cản nhất định. Trước hết là chi phí cao khoảng 40.000 USD, tuy rẻ hơn các cụm H100 cấp doanh nghiệp, nhưng vẫn ngoài tầm với của người dùng cá nhân.

Thứ hai, Thunderbolt 5 hiện chỉ hỗ trợ kết nối chuỗi (daisy-chain), chưa có bộ chuyển mạch chuyên dụng, khiến khả năng mở rộng cụm bị hạn chế. Ngoài ra, trong quá trình thử nghiệm cũng xuất hiện lỗi benchmark và vấn đề ổn định phần mềm.

Tuy nhiên, trong tương lai, khi chip M5 Ultra và bộ gia tốc thần kinh GPU được giới thiệu, kết hợp với các tính năng tiềm năng như SMB Direct, các cụm Mac có thể trở thành giải pháp hiệu quả cho các tổ chức nghiên cứu AI và các nhóm cần băng thông cao.


RDMA (Remote Direct Memory Access – truy cập bộ nhớ trực tiếp từ xa) là công nghệ cho phép một máy tính đọc hoặc ghi trực tiếp vào bộ nhớ của máy khác.

Có thể hình dung như việc không cần gọi điện nhờ đồng nghiệp gửi tài liệu, mà tự tay mở ngăn kéo của họ lấy tài liệu – không cần “bộ não” (CPU) của đối phương tham gia, nhờ đó tốc độ cực nhanh và độ trễ cực thấp. Công nghệ này thường được sử dụng trong các cụm tính toán hiệu năng cao.

Thunderbolt 5 là chuẩn kết nối thế hệ mới do Intel công bố, tăng gấp đôi tốc độ truyền lên 80Gb/s (trong chế độ đặc biệt có thể đạt 120Gb/s), cho phép truyền tải lượng dữ liệu khổng lồ như trên đường cao tốc.

Cụm Thunderbolt 5 đề cập đến khả năng macOS hiện đã hỗ trợ kết nối nhiều máy tính qua cổng Thunderbolt 5, cho phép phân tán việc chạy các mô hình AI ngôn ngữ lớn trên nhiều máy. Giải pháp này không chỉ chia sẻ tải tính toán mà còn dùng chung tài nguyên phần cứng như bộ nhớ, đồng thời nâng cao hiệu năng AI tổng thể của hệ thống.


 
Trả lời