Qualcomm giới thiệu kiến trúc bộ nhớ HBC: Hướng đi mới để giảm “nút thắt cổ chai” của AI, băng thông có thể tăng tới 54 lần
Sức mạnh tính toán của các hệ thống AI đang tăng lên rất nhanh, nhưng phần cứng vẫn còn một rào cản lớn: “memory wall” (bức tường bộ nhớ). Đây là hiện tượng năng lực xử lý của bộ tăng tốc AI phát triển nhanh hơn nhiều so với tốc độ cải thiện băng thông bộ nhớ, khiến dữ liệu không thể được truyền đến bộ xử lý đủ nhanh để khai thác hết hiệu năng.
Ngay cả HBM (High Bandwidth Memory) - loại bộ nhớ vốn được xem là tiêu chuẩn cho các GPU AI hiện nay - cũng đang gặp nhiều thách thức như chi phí sản xuất cao, quy trình đóng gói phức tạp và lượng nhiệt tỏa ra ngày càng lớn.
Tại sự kiện dành cho nhà đầu tư, Qualcomm đã giới thiệu một kiến trúc mới mang tên HBC (High Bandwidth Compute) với mục tiêu giải quyết bài toán “memory wall” theo một cách khác so với HBM truyền thống.
Ý tưởng của HBC khá đơn giản nhưng đáng chú ý.
Thay vì tích hợp bộ tăng tốc AI trực tiếp bên trong SoC, Qualcomm tách riêng khối AI accelerator rồi xếp chồng ngay bên dưới cụm bộ nhớ LPDDR. Hai thành phần này được kết nối trực tiếp thông qua TSV (Through-Silicon Via) - công nghệ xuyên lỗ silicon thường dùng trong các thiết kế chip xếp tầng.
Nhờ khoảng cách truyền dữ liệu được rút ngắn đáng kể, độ trễ có thể giảm xuống gần mức của SRAM, trong khi vẫn tận dụng được ưu điểm về dung lượng lớn và mật độ cao của bộ nhớ xếp chồng.
Qualcomm cũng thừa nhận HBC không được thiết kế để thay thế hoàn toàn HBM.
Xét về băng thông tuyệt đối và dung lượng tối đa, HBC vẫn khó vượt qua HBM. Tuy nhiên, đổi lại, kiến trúc này mang đến nhiều lợi thế về hiệu suất trên mỗi watt và khả năng tối ưu chi phí.
Do không cần sử dụng silicon interposer như HBM nên việc đóng gói chip trở nên đơn giản hơn, đồng thời giúp giảm chi phí thiết kế cũng như lượng nhiệt phát sinh.
Theo Qualcomm, HBC có thể đạt:
Dù vậy, hãng vẫn chưa công bố các thông số băng thông tuyệt đối của kiến trúc mới.
Thực tế, mô hình Near-Memory Computing (tính toán gần bộ nhớ) không phải là một ý tưởng hoàn toàn mới. Trong vài năm qua, nhiều công ty bán dẫn cũng đã thử nghiệm các kiến trúc tương tự nhằm giảm khoảng cách giữa bộ xử lý và bộ nhớ.
Ví dụ, hãng thiết kế ASIC Global Unichip (GUC) gần đây đã giới thiệu công nghệ DRAM-on-Logic (DoL), cho phép xếp từ một đến bốn lớp DRAM trực tiếp lên chip logic. Theo công bố, giải pháp này có thể đạt băng thông khoảng 5 TB/s, thậm chí trong một số trường hợp còn vượt hiệu năng của HBM3E.
Tuy nhiên, điểm khó nhất của các kiến trúc dạng này vẫn là khả năng thương mại hóa trên quy mô lớn, điều mà đến nay chưa nhiều hãng thực hiện thành công.
Qualcomm cũng chia sẻ kế hoạch phát triển các bộ tăng tốc AI Dragonwing trong vài năm tới.
Trong bối cảnh chi phí HBM ngày càng tăng và nhu cầu mở rộng hạ tầng AI vẫn chưa có dấu hiệu chậm lại, việc tìm kiếm các kiến trúc bộ nhớ mới đang trở thành xu hướng chung của ngành bán dẫn.
HBC cho thấy Qualcomm không chỉ tập trung vào việc nâng cấp bộ xử lý AI mà còn tìm cách tối ưu đường truyền dữ liệu giữa bộ nhớ và bộ tăng tốc. Nếu kiến trúc này có thể được thương mại hóa đúng như lộ trình đã công bố, đây có thể sẽ là một giải pháp đáng chú ý giúp giảm tiêu thụ điện năng, hạ nhiệt độ vận hành và cải thiện hiệu năng của các hệ thống AI thế hệ mới.
HBC: Đưa bộ tăng tốc AI đến gần bộ nhớ hơn
Tại sự kiện dành cho nhà đầu tư, Qualcomm đã giới thiệu một kiến trúc mới mang tên HBC (High Bandwidth Compute) với mục tiêu giải quyết bài toán “memory wall” theo một cách khác so với HBM truyền thống.
Ý tưởng của HBC khá đơn giản nhưng đáng chú ý.
Thay vì tích hợp bộ tăng tốc AI trực tiếp bên trong SoC, Qualcomm tách riêng khối AI accelerator rồi xếp chồng ngay bên dưới cụm bộ nhớ LPDDR. Hai thành phần này được kết nối trực tiếp thông qua TSV (Through-Silicon Via) - công nghệ xuyên lỗ silicon thường dùng trong các thiết kế chip xếp tầng.
Nhờ khoảng cách truyền dữ liệu được rút ngắn đáng kể, độ trễ có thể giảm xuống gần mức của SRAM, trong khi vẫn tận dụng được ưu điểm về dung lượng lớn và mật độ cao của bộ nhớ xếp chồng.
Không cạnh tranh trực diện với HBM
Qualcomm cũng thừa nhận HBC không được thiết kế để thay thế hoàn toàn HBM.
Xét về băng thông tuyệt đối và dung lượng tối đa, HBC vẫn khó vượt qua HBM. Tuy nhiên, đổi lại, kiến trúc này mang đến nhiều lợi thế về hiệu suất trên mỗi watt và khả năng tối ưu chi phí.
Do không cần sử dụng silicon interposer như HBM nên việc đóng gói chip trở nên đơn giản hơn, đồng thời giúp giảm chi phí thiết kế cũng như lượng nhiệt phát sinh.
Theo Qualcomm, HBC có thể đạt:
- Hiệu suất băng thông trên mỗi watt cao hơn HBM khoảng 5-7 lần.
- Dung lượng lớn hơn 200 lần so với SRAM tích hợp trên chip.
Dù vậy, hãng vẫn chưa công bố các thông số băng thông tuyệt đối của kiến trúc mới.
Ý tưởng không mới nhưng vẫn rất đáng chú ý
Thực tế, mô hình Near-Memory Computing (tính toán gần bộ nhớ) không phải là một ý tưởng hoàn toàn mới. Trong vài năm qua, nhiều công ty bán dẫn cũng đã thử nghiệm các kiến trúc tương tự nhằm giảm khoảng cách giữa bộ xử lý và bộ nhớ.
Ví dụ, hãng thiết kế ASIC Global Unichip (GUC) gần đây đã giới thiệu công nghệ DRAM-on-Logic (DoL), cho phép xếp từ một đến bốn lớp DRAM trực tiếp lên chip logic. Theo công bố, giải pháp này có thể đạt băng thông khoảng 5 TB/s, thậm chí trong một số trường hợp còn vượt hiệu năng của HBM3E.
Tuy nhiên, điểm khó nhất của các kiến trúc dạng này vẫn là khả năng thương mại hóa trên quy mô lớn, điều mà đến nay chưa nhiều hãng thực hiện thành công.
Lộ trình AI Accelerator của Qualcomm
Qualcomm cũng chia sẻ kế hoạch phát triển các bộ tăng tốc AI Dragonwing trong vài năm tới.
- AI200 sẽ ra mắt trong năm nay, vẫn sử dụng bộ nhớ LPDDR5X truyền thống, hỗ trợ dung lượng tối đa 43 TB, có thể làm mát bằng không khí hoặc chất lỏng.
- AI250 dự kiến xuất hiện vào năm sau và là sản phẩm đầu tiên ứng dụng kiến trúc HBC. Dung lượng tối đa vẫn ở mức 43 TB, nhưng băng thông hiệu dụng được Qualcomm cho biết sẽ cao hơn 18 lần so với AI200.
- AI300 sẽ tiếp tục được giới thiệu trong năm kế tiếp. Qualcomm chưa tiết lộ dung lượng cụ thể, chỉ cho biết khả năng mở rộng sẽ được cải thiện và băng thông có thể tăng tới 54 lần so với AI200.
HBC có thể mở ra một hướng tiếp cận mới cho AI
Trong bối cảnh chi phí HBM ngày càng tăng và nhu cầu mở rộng hạ tầng AI vẫn chưa có dấu hiệu chậm lại, việc tìm kiếm các kiến trúc bộ nhớ mới đang trở thành xu hướng chung của ngành bán dẫn.
HBC cho thấy Qualcomm không chỉ tập trung vào việc nâng cấp bộ xử lý AI mà còn tìm cách tối ưu đường truyền dữ liệu giữa bộ nhớ và bộ tăng tốc. Nếu kiến trúc này có thể được thương mại hóa đúng như lộ trình đã công bố, đây có thể sẽ là một giải pháp đáng chú ý giúp giảm tiêu thụ điện năng, hạ nhiệt độ vận hành và cải thiện hiệu năng của các hệ thống AI thế hệ mới.
BÀI MỚI ĐANG THẢO LUẬN