Vào tháng 6, Google lần đầu tiên công bố Gemma 2 , thế hệ tiếp theo của các mô hình ngôn ngữ mở được xây dựng trên một kiến trúc mới được thiết kế để có hiệu suất và hiệu quả cao. Cho đến ngày hôm qua, Gemma 2 có sẵn ở hai kích thước: 9 tỷ (9B) và 27 tỷ (27B) tham số. Hôm qua, Google đã mở rộng họ Gemma 2 bằng cách công bố Gemma 2 2B với 2 tỷ tham số.
Gemma 2 2B mới tuyên bố mang lại hiệu suất tốt nhất trong phân khúc, thậm chí đánh bại tất cả các mẫu GPT-3.5 trên Chatbot Arena với số điểm là 1126. Nó cũng có thể chạy hiệu quả trên nhiều phần cứng khác nhau, từ PC và thiết bị biên đến triển khai đám mây trên Google Cloud Vertex AI. Google đã tối ưu hóa mô hình bằng thư viện NVIDIA TensorRT-LLM và các nhà phát triển có thể sử dụng nó như một NVIDIA NIM (Nvidia Inference Microservices). Vì nó được tối ưu hóa cho thư viện NVIDIA TensorRT-LLM, nên nó có thể chạy trên nhiều nền tảng khác nhau bằng cách sử dụng NVIDIA RTX, GPU NVIDIA GeForce RTX và các mô-đun NVIDIA Jetson. Ngoài ra, Gemma 2 2B tích hợp với Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp và sắp tới là MediaPipe để phát triển dễ dàng.
Các trọng số mô hình của Gemma 2 có thể tải xuống từ Kaggle, Hugging Face và Vertex AI Model Garden. Không giống như các mô hình Google Gemini, Gemma 2 có sẵn theo giấy phép thân thiện với thương mại. Cùng với Gemma 2, Google cũng công bố các mô hình phân loại nội dung an toàn ShieldGemma và công cụ diễn giải mô hình Gemma Scope .
Vào tháng 4, Microsoft đã công bố họ mô hình ngôn ngữ Phi-3 , cạnh tranh trực tiếp với họ mô hình Gemma của Google. Họ Phi-3 có ba mô hình: Phi-3-mini là mô hình ngôn ngữ 3,8B có sẵn trong hai biến thể độ dài ngữ cảnh, 4K và 128K token. Phi-3-Small là mô hình ngôn ngữ 7B có sẵn trong hai biến thể độ dài ngữ cảnh, 8K và 128K token. Phi-3-medium là mô hình ngôn ngữ 14B, cũng có sẵn trong hai biến thể độ dài ngữ cảnh tương tự.
Sự xuất hiện của các mô hình ngôn ngữ nhỏ hơn nhưng mạnh mẽ như Gemini 2 2B của Google và Phi-3 của Microsoft cho thấy xu hướng đang phát triển trong ngành AI. Sự chuyển dịch sang các mô hình nhỏ hơn này ưu tiên khả năng truy cập và hiệu quả, cho phép triển khai trên nhiều thiết bị hơn và giảm chi phí tính toán.
Nguồn: Google
Bài viết sử dụng google dịch, mình xin lỗi về các từ bị dịch sai.