Vn-Z.vn Ngày 08 tháng 01 năm 2025, Hôm nay NVIDIA đã công bố NVIDIA Cosmos™, một nền tảng bao gồm các mô hình cơ sở thế giới tạo sinh tiên tiến, các bộ mã hóa hiện đại, biện pháp bảo vệ và quy trình xử lý video tăng tốc nhằm thúc đẩy phát triển các hệ thống AI vật lý như xe tự hành (AV) và robot
Các mô hình AI vật lý rất tốn kém để phát triển, đòi hỏi một lượng lớn dữ liệu thực tế và quá trình thử nghiệm. Các mô hình cơ sở thế giới Cosmos (Cosmos WFMs) mang đến cho nhà phát triển một cách dễ dàng để tạo ra khối lượng lớn dữ liệu tổng hợp có tính vật lý và ảnh thực để huấn luyện và đánh giá các mô hình hiện có. Các nhà phát triển cũng có thể xây dựng các mô hình tùy chỉnh bằng cách tinh chỉnh Cosmos WFMs.
Mô hình Cosmos sẽ được cung cấp theo giấy phép mô hình mở để tăng tốc công việc của cộng đồng robot và AV. Các nhà phát triển có thể xem trước các mô hình đầu tiên trên danh mục API của NVIDIA hoặc tải về các mô hình và khung tinh chỉnh từ danh mục NVIDIA NGC™ hoặc Hugging Face.
Các công ty hàng đầu trong lĩnh vực robot và ô tô, bao gồm 1X, Agile Robots, Agility,
Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi và XPENG, cùng với Uber, là những người đầu tiên áp dụng Cosmos.
"Khoảnh khắc ChatGPT cho ngành robot sắp đến. Giống như các mô hình ngôn ngữ lớn, các mô hình cơ sở thế giới là nền tảng để thúc đẩy phát triển robot và AV, nhưng không phải tất cả nhà phát triển đều có chuyên môn và nguồn lực để tự huấn luyện," Jensen Huang, nhà sáng lập và CEO của NVIDIA, nói. "Chúng tôi tạo ra Cosmos để dân chủ hóa AI vật lý và đưa robot tổng quát đến với mọi nhà phát triển."
Cosmos WFMs được thiết kế đặc biệt cho nghiên cứu và phát triển AI vật lý, có thể tạo ra các video dựa trên vật lý từ sự kết hợp các đầu vào, như văn bản, hình ảnh, video và dữ liệu cảm biến hoặc chuyển động của robot. Các mô hình này hỗ trợ tương tác vật lý, tính liên tục của đối tượng và khả năng tạo ra môi trường công nghiệp mô phỏng chất lượng cao như nhà kho, nhà máy, hoặc môi trường lái xe với các điều kiện đường khác nhau.
Trong bài phát biểu khai mạc tại CES, Jensen Huang đã trình bày các cách mà nhà phát triển AI vật lý có thể sử dụng các mô hình Cosmos, bao gồm:.
Tìm kiếm và hiểu video, giúp nhà phát triển dễ dàng tìm thấy các kịch bản huấn luyện cụ thể như đường tuyết hoặc tình trạng đông đúc trong nhà kho từ dữ liệu video.
Tạo dữ liệu tổng hợp từ 3D đến thực tế, sử dụng Cosmos để tạo video ảnh thực từ các kịch bản 3D được kiểm soát trong nền tảng NVIDIA Omniverse™ .
Phát triển và đánh giá mô hình AI vật lý, từ việc xây dựng mô hình tùy chỉnh dựa trên mô hình cơ sở đến cải tiến mô hình thông qua học tăng cường hoặc kiểm tra chúng trong các kịch bản mô phỏng cụ thể.
Dự đoán trước, giúp mô hình AI vật lý chọn hành động tiếp theo tối ưu bằng cách dự đoán kết quả tiềm năng.
Mô phỏng đa vũ trụ, tạo ra mọi kịch bản có thể xảy ra để AI chọn con đường chính xác nhất.
Quy trình xử lý dữ liệu tăng tốc bằng NVIDIA AI và CUDA®, được hỗ trợ bởi NVIDIA NeMo™ Curator, cho phép xử lý 20 triệu giờ video trong 14 ngày trên nền tảng NVIDIA Blackwell, thay vì 3,4 năm với quy trình chỉ dùng CPU.
Bộ mã hóa NVIDIA Cosmos Tokenize, chuyển đổi hình ảnh và video thành mã hóa với tốc độ xử lý nhanh gấp 12 lần và nén tổng thể gấp 8 lần so với các bộ mã hóa hiện nay.
Khung NVIDIA NeMo để huấn luyện, tùy chỉnh và tối ưu hóa mô hình hiệu quả cao.
1X, công ty về AI và robot hình người, đã ra mắt tập dữ liệu 1X World Model Challenge bằng Cosmos Tokenizer. XPENG sẽ sử dụng Cosmos để tăng tốc phát triển robot hình người. Hillbot và SkildAI dùng Cosmos để thúc đẩy nhanh việc phát triển robot đa dụng.
“Sự khan hiếm và biến động dữ liệu là thách thức lớn trong học tập ở môi trường robot,” Pras Velagapudi, Giám đốc Công nghệ tại Agility, chia sẻ. “Khả năng tạo và bổ sung các kịch bản ảnh thực của Cosmos giúp chúng tôi huấn luyện mô hình mà không cần quá nhiều dữ liệu thực tế tốn kém.”
Các nhà lãnh đạo trong ngành giao thông cũng áp dụng Cosmos để xây dựng AI vật lý cho xe tự hành (AV).
Waabi, công ty tiên phong về AI tạo sinh cho thế giới vật lý, sẽ sử dụng Cosmos để tìm kiếm và quản lý dữ liệu video phục vụ phát triển và mô phỏng phần mềm AV.
Wayve, đang phát triển mô hình cơ sở AI cho lái xe tự động, đang đánh giá Cosmos như một công cụ tìm kiếm các trường hợp lái xe hiếm và khó để đảm bảo an toàn.
Foretellix, nhà cung cấp công cụ AV, sẽ sử dụng Cosmos cùng NVIDIA Omniverse Sensor RTX API để tạo ra các kịch bản kiểm tra và dữ liệu huấn luyện chất lượng cao ở quy mô lớn.
Uber hợp tác với NVIDIA để tăng tốc phát triển công nghệ di chuyển tự động.
“AI tạo sinh sẽ thúc đẩy tương lai của giao thông, đ i hỏi dữ liệu phong phú và khả năng tính toán mạnh mẽ,” Dara Khosrowshahi, CEO của Uber, nói. “Hợp tác với NVIDIA, chúng tôi tự tin rằng có thể đẩy nhanh việc phát triển giải pháp lái xe tự động an toàn và có khả năng mở rộng cho ngành công nghiệp.”
Phát triển AI mở, an toàn và có trách nhiệm
NVIDIA Cosmos được phát triển theo các nguyên tắc AI đáng tin cậy của NVIDIA, ưu tiên quyền riêng tư, an toàn, bảo mật, tính minh bạch và giảm thiểu thiên vị không mong muốn.
AI đáng tin cậy là yếu tố thiết yếu để thúc đẩy đổi mới trong cộng đồng nhà phát triển và duy trì niềm tin của người dùng. NVIDIA cam kết phát triển AI an toàn và đáng tin cậy, phù hợp với các cam kết tự nguyện về AI của Nhà Trắng và các sáng kiến an toàn AI toàn cầu khác.
Nền tảng Cosmos mở bao gồm các biện pháp bảo vệ được thiết kế để giảm thiểu văn bản và hình ảnh có hại, đồng thời tích hợp một công cụ cải thiện độ chính xác của các lệnh văn bản. Các video được tạo ra bằng các mô hình autoregressive (hồi quy tự động) và diffusion (khuếch tán) của Cosmos trên danh mục API của NVIDIA đều có watermark vô hình để xác định nội dung do AI tạo ra, giúp giảm nguy cơ thông tin sai lệch và việc sử dụng sai mục đích.
NVIDIA khuyến khích các nhà phát triển áp dụng các thực hành AI đáng tin cậy và tiếp tục cải thiện các giải pháp bảo vệ và watermark cho các ứng dụng của họ.
Các nhà phát triển có thể truy cập NVIDIA NeMo Curator để xử lý video tăng tốc và tùy chỉnh các mô hình thế giới của riêng họ bằng NVIDIA NeMo. NVIDIA DGX™ Cloud mang đến cách triển khai nhanh chóng và dễ dàng cho các mô hình này, với hỗ trợ doanh nghiệp thông qua nền tảng phần mềm NVIDIA AI Enterprise.
NVIDIA cũng đã công bố các mô hình ngôn ngữ lớn NVIDIA Llama Nemotron và các mô hình ngôn ngữ hình ảnh NVIDIA Cosmos Nemotron mới, được thiết kế để phục vụ các trường hợp sử dụng AI trong doanh nghiệp thuộc các lĩnh vực như chăm sóc sức khỏe, dịch vụ tài chính, sản xuất và nhiều lĩnh vực khác.
Các mô hình AI vật lý rất tốn kém để phát triển, đòi hỏi một lượng lớn dữ liệu thực tế và quá trình thử nghiệm. Các mô hình cơ sở thế giới Cosmos (Cosmos WFMs) mang đến cho nhà phát triển một cách dễ dàng để tạo ra khối lượng lớn dữ liệu tổng hợp có tính vật lý và ảnh thực để huấn luyện và đánh giá các mô hình hiện có. Các nhà phát triển cũng có thể xây dựng các mô hình tùy chỉnh bằng cách tinh chỉnh Cosmos WFMs.
Mô hình Cosmos sẽ được cung cấp theo giấy phép mô hình mở để tăng tốc công việc của cộng đồng robot và AV. Các nhà phát triển có thể xem trước các mô hình đầu tiên trên danh mục API của NVIDIA hoặc tải về các mô hình và khung tinh chỉnh từ danh mục NVIDIA NGC™ hoặc Hugging Face.
Các công ty hàng đầu trong lĩnh vực robot và ô tô, bao gồm 1X, Agile Robots, Agility,
Figure AI, Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi và XPENG, cùng với Uber, là những người đầu tiên áp dụng Cosmos.
"Khoảnh khắc ChatGPT cho ngành robot sắp đến. Giống như các mô hình ngôn ngữ lớn, các mô hình cơ sở thế giới là nền tảng để thúc đẩy phát triển robot và AV, nhưng không phải tất cả nhà phát triển đều có chuyên môn và nguồn lực để tự huấn luyện," Jensen Huang, nhà sáng lập và CEO của NVIDIA, nói. "Chúng tôi tạo ra Cosmos để dân chủ hóa AI vật lý và đưa robot tổng quát đến với mọi nhà phát triển."
Mô hình cơ sở thế giới mở thúc đẩy làn sóng AI tiếp theo
Bộ mô hình mở của NVIDIA Cosmos cho phép các nhà phát triển tùy chỉnh Cosmos WFMs bằng các bộ dữ liệu, chẳng hạn như video về chuyến đi của AV hoặc robot điều hướng trong nhà kho, theo nhu cầu của ứng dụng mục tiêu.Cosmos WFMs được thiết kế đặc biệt cho nghiên cứu và phát triển AI vật lý, có thể tạo ra các video dựa trên vật lý từ sự kết hợp các đầu vào, như văn bản, hình ảnh, video và dữ liệu cảm biến hoặc chuyển động của robot. Các mô hình này hỗ trợ tương tác vật lý, tính liên tục của đối tượng và khả năng tạo ra môi trường công nghiệp mô phỏng chất lượng cao như nhà kho, nhà máy, hoặc môi trường lái xe với các điều kiện đường khác nhau.
Trong bài phát biểu khai mạc tại CES, Jensen Huang đã trình bày các cách mà nhà phát triển AI vật lý có thể sử dụng các mô hình Cosmos, bao gồm:.
Tìm kiếm và hiểu video, giúp nhà phát triển dễ dàng tìm thấy các kịch bản huấn luyện cụ thể như đường tuyết hoặc tình trạng đông đúc trong nhà kho từ dữ liệu video.
Tạo dữ liệu tổng hợp từ 3D đến thực tế, sử dụng Cosmos để tạo video ảnh thực từ các kịch bản 3D được kiểm soát trong nền tảng NVIDIA Omniverse™ .
Phát triển và đánh giá mô hình AI vật lý, từ việc xây dựng mô hình tùy chỉnh dựa trên mô hình cơ sở đến cải tiến mô hình thông qua học tăng cường hoặc kiểm tra chúng trong các kịch bản mô phỏng cụ thể.
Dự đoán trước, giúp mô hình AI vật lý chọn hành động tiếp theo tối ưu bằng cách dự đoán kết quả tiềm năng.
Mô phỏng đa vũ trụ, tạo ra mọi kịch bản có thể xảy ra để AI chọn con đường chính xác nhất.
Công cụ phát triển mô hình cơ sở tiên tiến
Việc xây dựng các mô hình AI vật lý yêu cầu hàng petabyte dữ liệu video và hàng chục nghìn giờ tính toán để xử lý, quản lý và gắn nhãn dữ liệu đó. Để giúp tiết kiệm chi phí rất lớn trong việc quản lý dữ liệu, đào tạo và tùy chỉnh mô hình, Cosmos cung cấp:Quy trình xử lý dữ liệu tăng tốc bằng NVIDIA AI và CUDA®, được hỗ trợ bởi NVIDIA NeMo™ Curator, cho phép xử lý 20 triệu giờ video trong 14 ngày trên nền tảng NVIDIA Blackwell, thay vì 3,4 năm với quy trình chỉ dùng CPU.
Bộ mã hóa NVIDIA Cosmos Tokenize, chuyển đổi hình ảnh và video thành mã hóa với tốc độ xử lý nhanh gấp 12 lần và nén tổng thể gấp 8 lần so với các bộ mã hóa hiện nay.
Khung NVIDIA NeMo để huấn luyện, tùy chỉnh và tối ưu hóa mô hình hiệu quả cao.
Ngành công nghiệp AI vật lý toàn cầu áp dụng Cosmos
Những công ty tiên phong trong ngành đã bắt đầu sử dụng công nghệ Cosmos1X, công ty về AI và robot hình người, đã ra mắt tập dữ liệu 1X World Model Challenge bằng Cosmos Tokenizer. XPENG sẽ sử dụng Cosmos để tăng tốc phát triển robot hình người. Hillbot và SkildAI dùng Cosmos để thúc đẩy nhanh việc phát triển robot đa dụng.
“Sự khan hiếm và biến động dữ liệu là thách thức lớn trong học tập ở môi trường robot,” Pras Velagapudi, Giám đốc Công nghệ tại Agility, chia sẻ. “Khả năng tạo và bổ sung các kịch bản ảnh thực của Cosmos giúp chúng tôi huấn luyện mô hình mà không cần quá nhiều dữ liệu thực tế tốn kém.”
Các nhà lãnh đạo trong ngành giao thông cũng áp dụng Cosmos để xây dựng AI vật lý cho xe tự hành (AV).
Waabi, công ty tiên phong về AI tạo sinh cho thế giới vật lý, sẽ sử dụng Cosmos để tìm kiếm và quản lý dữ liệu video phục vụ phát triển và mô phỏng phần mềm AV.
Wayve, đang phát triển mô hình cơ sở AI cho lái xe tự động, đang đánh giá Cosmos như một công cụ tìm kiếm các trường hợp lái xe hiếm và khó để đảm bảo an toàn.
Foretellix, nhà cung cấp công cụ AV, sẽ sử dụng Cosmos cùng NVIDIA Omniverse Sensor RTX API để tạo ra các kịch bản kiểm tra và dữ liệu huấn luyện chất lượng cao ở quy mô lớn.
Uber hợp tác với NVIDIA để tăng tốc phát triển công nghệ di chuyển tự động.
“AI tạo sinh sẽ thúc đẩy tương lai của giao thông, đ i hỏi dữ liệu phong phú và khả năng tính toán mạnh mẽ,” Dara Khosrowshahi, CEO của Uber, nói. “Hợp tác với NVIDIA, chúng tôi tự tin rằng có thể đẩy nhanh việc phát triển giải pháp lái xe tự động an toàn và có khả năng mở rộng cho ngành công nghiệp.”
Phát triển AI mở, an toàn và có trách nhiệm
NVIDIA Cosmos được phát triển theo các nguyên tắc AI đáng tin cậy của NVIDIA, ưu tiên quyền riêng tư, an toàn, bảo mật, tính minh bạch và giảm thiểu thiên vị không mong muốn.
AI đáng tin cậy là yếu tố thiết yếu để thúc đẩy đổi mới trong cộng đồng nhà phát triển và duy trì niềm tin của người dùng. NVIDIA cam kết phát triển AI an toàn và đáng tin cậy, phù hợp với các cam kết tự nguyện về AI của Nhà Trắng và các sáng kiến an toàn AI toàn cầu khác.
Nền tảng Cosmos mở bao gồm các biện pháp bảo vệ được thiết kế để giảm thiểu văn bản và hình ảnh có hại, đồng thời tích hợp một công cụ cải thiện độ chính xác của các lệnh văn bản. Các video được tạo ra bằng các mô hình autoregressive (hồi quy tự động) và diffusion (khuếch tán) của Cosmos trên danh mục API của NVIDIA đều có watermark vô hình để xác định nội dung do AI tạo ra, giúp giảm nguy cơ thông tin sai lệch và việc sử dụng sai mục đích.
NVIDIA khuyến khích các nhà phát triển áp dụng các thực hành AI đáng tin cậy và tiếp tục cải thiện các giải pháp bảo vệ và watermark cho các ứng dụng của họ.
Thời gian áp dụng
Cosmos WFMs hiện đã có sẵn theo giấy phép mô hình mở của NVIDIA trên Hugging Face và danh mục NVIDIA NGC. Các mô hình Cosmos sẽ sớm được cung cấp dưới dạng dịch vụ vi mô NVIDIA NIM được tối ưu hóa hoàn toàn.Các nhà phát triển có thể truy cập NVIDIA NeMo Curator để xử lý video tăng tốc và tùy chỉnh các mô hình thế giới của riêng họ bằng NVIDIA NeMo. NVIDIA DGX™ Cloud mang đến cách triển khai nhanh chóng và dễ dàng cho các mô hình này, với hỗ trợ doanh nghiệp thông qua nền tảng phần mềm NVIDIA AI Enterprise.
NVIDIA cũng đã công bố các mô hình ngôn ngữ lớn NVIDIA Llama Nemotron và các mô hình ngôn ngữ hình ảnh NVIDIA Cosmos Nemotron mới, được thiết kế để phục vụ các trường hợp sử dụng AI trong doanh nghiệp thuộc các lĩnh vực như chăm sóc sức khỏe, dịch vụ tài chính, sản xuất và nhiều lĩnh vực khác.