Hugging Face ra mắt mô hình AI SmolVLM mã nguồn mở: 2 tỷ tham số, tối ưu cho suy luận trên thiết bị, kích thước nhỏ gọn, tốc độ cao

VNZ-NEWS
Vn-Z.vn Ngày 27 tháng 11 năm 2024, Nền tảng Hugging Face đã đăng tải một bài viết công bố mô hình SmolVLM – mô hình AI ngôn ngữ thị giác (VLM) với quy mô chỉ 2 tỷ tham số, được thiết kế tối ưu cho suy luận trên các thiết bị. Nhờ dung lượng bộ nhớ cực thấp, SmolVLM nổi bật trong số các mô hình cùng loại.

Theo thông báo từ Hugging Face, SmolVLM có các ưu điểm chính như kích thước nhỏ gọn, tốc độ xử lý nhanh, hiệu quả về bộ nhớ, và hoàn toàn mã nguồn mở. Tất cả các điểm kiểm tra mô hình, tập dữ liệu VLM, công thức huấn luyện và công cụ hỗ trợ đều được phát hành theo giấy phép Apache 2.0.



Các phiên bản của SmolVLM
SmolVLM có ba phiên bản chính:


SmolVLM-Base: dành cho tinh chỉnh các tác vụ hạ nguồn.
SmolVLM-Synthetic: tinh chỉnh dựa trên dữ liệu tổng hợp.
SmolVLM-Instruct: phiên bản tinh chỉnh theo hướng dẫn, có thể sử dụng trực tiếp trong các ứng dụng tương tác.


Kiến trúc



Điểm đặc biệt của SmolVLM nằm ở thiết kế kiến trúc tinh tế, lấy cảm hứng từ Idefics3, sử dụng SmolLM2 (1.7B tham số) làm ngôn ngữ chủ đạo, và áp dụng chiến lược pixel-shuffling giúp tăng tỷ lệ nén thông tin thị giác lên 9 lần.

Tập dữ liệu huấn luyện của SmolVLM bao gồm CauldronDocmatix. SmolLM2 cũng được mở rộng ngữ cảnh để xử lý chuỗi văn bản dài hơn và nhiều hình ảnh hơn. Mô hình này tối ưu hóa quá trình mã hóa hình ảnh và suy luận, giảm đáng kể bộ nhớ tiêu thụ, khắc phục vấn đề mô hình lớn chạy chậm hoặc bị lỗi trên các thiết bị thông thường.

Hiệu suất bộ nhớ


SmolVLM mã hóa hình ảnh khối có kích thước 384x384 pixel thành 81 token. Trong cùng một bài kiểm tra hình ảnh, SmolVLM chỉ sử dụng 1200 token, so với 16.000 token của Qwen2-VL.

Thông lượng


SmolVLM thể hiện hiệu suất vượt trội trên các bộ tiêu chuẩn như MMMU, MathVista, MMStar, DocVQA, và TextVQA. So với Qwen2-VL, SmolVLM có thông lượng tiền xử lý (prefill throughput) nhanh hơn 3.3–4.5 lần và thông lượng tạo kết quả (generation throughput) nhanh hơn 7.5–16 lần.