Unitree open-source UnifoLM-VLA-0, AI “não bộ tương lai” cho robot hình người

VNZ-TECHS
Hôm nay, Unitree chính thức công bố mã nguồn mở mô hình lớn UnifoLM-VLA-0.

Theo giới thiệu, đây là mô hình lớn thị giác – ngôn ngữ – hành động (VLA) thuộc dòng UnifoLM, được thiết kế chuyên cho các nhiệm vụ thao tác của robot hình người đa năng. Mục tiêu của mô hình là phá vỡ những giới hạn của VLM truyền thống trong tương tác vật lý, thông qua việc tiếp tục huấn luyện trên dữ liệu thao tác robot, từ đó tiến hóa từ khả năng “hiểu hình ảnh – văn bản” tổng quát sang một “bộ não hiện thân” (embodied brain) sở hữu tri thức vật lý.
Trước yêu cầu cao về khả năng hiểu chỉ thị và nhận thức không gian trong các nhiệm vụ thao tác, mô hình đã được tiếp tục huấn luyện để kết hợp sâu giữa chỉ dẫn văn bản và các chi tiết không gian 2D/3D, qua đó tăng cường đáng kể năng lực cảm nhận và suy luận không gian.


Unitree cũng xây dựng dữ liệu dự đoán động lực học toàn chuỗi, giúp mô hình đạt khả năng tổng quát hóa nhiệm vụ tốt hơn. Trong quá trình kiểm chứng trên robot thật, chỉ với một chiến lược duy nhất, mô hình có thể hoàn thành chất lượng cao 12 loại nhiệm vụ thao tác phức tạp.

Dựa trên mô hình mã nguồn mở Qwen2.5-VL-7B, Unitree đã xây dựng bộ dữ liệu đa nhiệm bao phủ cả kịch bản robot và kịch bản phổ thông, đồng thời tiến hành huấn luyện liên tục. Bộ dữ liệu này bao gồm nhiều chiều thông tin như phát hiện và phân đoạn 2D, phân rã nhiệm vụ theo cấp độ, phát hiện mục tiêu 3D, suy luận vị trí không gian và dự đoán quỹ đạo, giúp cải thiện hiệu quả khả năng căn chỉnh giữa không gian hình học và logic ngữ nghĩa của mô hình.

Đối với các nhiệm vụ thao tác, Unitree đã làm sạch có hệ thống các bộ dữ liệu mã nguồn mở, và cuối cùng chỉ sử dụng khoảng 340 giờ dữ liệu robot thật để huấn luyện dự đoán hành động rời rạc. Trên cơ sở đó, mô hình tích hợp dự đoán hành động theo khối, cùng các ràng buộc động lực học thuận và nghịch, nhằm mô hình hóa thống nhất chuỗi hành động. Cách tiếp cận này giúp VLM có được hiểu biết sâu sắc về quy luật tương tác vật lý giữa robot và vật thể, đồng thời hỗ trợ lập kế hoạch và ra quyết định hành động dài hạn.

Sau khi tiến hành huấn luyện liên tục trên bộ dữ liệu nêu trên, Unitree đã thu được UnifoLM-VLM-0. Mô hình này thể hiện khả năng suy luận không gian được tăng cường rõ rệt và hiệu năng cảm nhận đa phương thức ổn định trong nhiều kịch bản nhiệm vụ khác nhau. Các ví dụ kiểm thử zero-shot liên quan cho thấy: trong ba bộ chuẩn đánh giá khả năng hiểu không gian, UnifoLM-VLM-0 vượt trội đáng kể so với Qwen2.5-VL-7B, và trong chế độ “no thinking” có thể sánh ngang với Gemini-Robotics-ER 1.5.


Trên nền tảng UnifoLM-VLM-0, Unitree đã tích hợp đầu dự đoán hành động (ActionHead) để xây dựng UnifoLM-VLA-0. Thông qua huấn luyện đa nhiệm và xác thực trên cả môi trường mô phỏng lẫn robot thật, kết quả cho thấy mô hình này có khả năng tổng quát cao, một mô hình xử lý nhiều nhiệm vụ. Trong bài kiểm tra mô phỏng LIBERO, mô hình đa nhiệm của Unitree đạt hiệu năng tiệm cận mức tối ưu.

LIBERO Simulation Benchmark​

ModelLIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-LongAverage
UnifoLM-VLA-099.010099.496.298.7
EO199.799.899.294.898.2
X-VLA98.298.697.897.698.1
OpenVLA-OFT97.698.497.994.597.1
GR00T-N1.697.798.597.594.497.0
π0.598.898.298.092.496.9
MemoryVLA98.498.496.493.496.7
InternVLA-M198.099.093.892.695.9
F198.297.895.491.395.7
π0.5-KI98.097.895.685.894.3
π096.898.895.885.294.2
GR00T-N194.497.693.090.693.9
CogACT97.298.090.288.893.2
π0 + FAST96.496.888.660.285.5

Trên nền tảng robot hình người Unitree G1, Unitree đã xây dựng bộ dữ liệu robot thật chất lượng cao bao phủ 12 loại nhiệm vụ thao tác phức tạp, và dựa trên đó tiến hành huấn luyện thống nhất đầu-cuối bằng một mạng chiến lược duy nhất cho UnifoLM-VLA-0. Kết quả thực nghiệm cho thấy, chỉ với một checkpoint chiến lược, mô hình có thể hoàn thành ổn định toàn bộ 12 nhiệm vụ, đồng thời vẫn duy trì độ bền vững trong thực thi và khả năng chống nhiễu tốt ngay cả khi có tác động ngoại lực.


Trang dự án: https://unigen-x.github.io/unifolm-vla.github.io/
Mã nguồn mở: https://github.com/unitreerobotics/unifolm-vla
 
anhtuvnz Reactions: anhtuvnz