Đại học Hồng Kông (HKU) đã hợp tác cùng Kuaishou thành lập một nhóm nghiên cứu khoa học, giới thiệu khung sáng tạo mang tên GameFactory, với mục tiêu giải quyết vấn đề tổng quát hóa cảnh quan trong việc tạo video trò chơi. Khung này dựa trên mô hình khuếch tán video được huấn luyện trước trên dữ liệu video trong miền mở, cho phép tạo ra các cảnh quan trò chơi hoàn toàn mới và đa dạng, mở ra những bước tiến đột phá trong lĩnh vực phát triển trò chơi và tạo video. Kết quả nghiên cứu đã được đăng tải trên trang web arxiv.org với tiêu đề : GameFactory: Creating New Games with Generative Interactive Videos
Mô hình khuếch tán video đã thể hiện tiềm năng mạnh mẽ trong việc tạo video và mô phỏng vật lý, được xem là công nghệ cốt lõi cho thế hệ tiếp theo của các công cụ tạo trò chơi. Những mô hình này không chỉ có khả năng tạo video có thể điều khiển hành động, mà còn phản hồi được các thao tác của người dùng (như bàn phím và chuột), hiện thực hóa việc tạo cảnh quan tương tác.
Tuy nhiên, tổng quát hóa cảnh quan là một thách thức lớn trong lĩnh vực này. Đây là khả năng tạo ra những môi trường trò chơi mới và đa dạng, vượt qua giới hạn của các cảnh quan hiện có. Phương pháp chủ yếu hiện nay là thu thập các bộ dữ liệu video gắn nhãn quy mô lớn, nhưng cách tiếp cận này tốn kém và khó thực hiện đối với các cảnh quan trong miền mở. Điều này đã hạn chế sự phát triển của các công cụ tạo trò chơi, đặc biệt trong việc tạo ra các môi trường phong phú và sáng tạo.
Sự phát triển của các mô hình khuếch tán video, từ cấu trúc U-Net truyền thống đến cấu trúc dựa trên Transformer, đã mang lại khả năng tạo video sống động hơn với thời lượng dài hơn. Một số ví dụ điển hình bao gồm:
• Direct-a-Video cung cấp khả năng kiểm soát máy quay cơ bản.
• MotionCtrl và CameraCtrl cho phép kiểm soát phức tạp hơn về tư thế máy quay và chuyển động.
Tuy nhiên, trong ứng dụng cụ thể vào lĩnh vực trò chơi, các phương pháp hiện tại như DIAMOND, GameNGen và PlayGen thường phụ thuộc quá nhiều vào các bộ dữ liệu hoặc trò chơi cụ thể, dẫn đến hạn chế khả năng tổng quát hóa.
Giới thiệu khung GameFactory
GameFactory sử dụng mô hình khuếch tán video được huấn luyện trước trên dữ liệu video trong miền mở, nhằm phá vỡ sự phụ thuộc vào các bộ dữ liệu trò chơi cụ thể. Để giải quyết khoảng cách giữa kiến thức miền mở và các bộ dữ liệu trò chơi giới hạn, GameFactory áp dụng chiến lược huấn luyện ba giai đoạn độc đáo:
1. Giai đoạn 1: Tinh chỉnh bằng LoRA
Sử dụng LoRA (Low-Rank Adaptation) để tinh chỉnh mô hình được huấn luyện trước, giúp thích nghi với miền trò chơi mục tiêu mà vẫn giữ nguyên phần lớn tham số ban đầu.
2. Giai đoạn 2: Huấn luyện mô-đun kiểm soát hành động
Sau khi cố định các tham số của mô hình huấn luyện trước và LoRA, giai đoạn này tập trung vào huấn luyện mô-đun kiểm soát hành động, nhằm tránh sự đan xen giữa phong cách và kiểm soát.
3. Giai đoạn 3: Loại bỏ trọng số LoRA
Sau khi hoàn thiện, các trọng số LoRA được loại bỏ, chỉ giữ lại tham số của mô-đun kiểm soát hành động, cho phép hệ thống tạo video trò chơi được kiểm soát trong các cảnh quan miền mở, không bị giới hạn bởi phong cách của bất kỳ trò chơi nào.
Nghiên cứu cũng đánh giá hiệu quả của các cơ chế kiểm soát khác nhau, cho thấy cơ chế chú ý chéo (cross-attention) vượt trội hơn trong xử lý các tín hiệu điều khiển rời rạc (như nhập từ bàn phím), trong khi phương pháp ghép nối (concatenation) hiệu quả hơn với tín hiệu di chuột liên tục.
GameFactory hỗ trợ kiểm soát hành động tự hồi quy, có thể tạo video trò chơi tương tác với độ dài không giới hạn. Ngoài ra, nhóm nghiên cứu cũng phát hành bộ dữ liệu video gắn nhãn hành động chất lượng cao GF-Minecraft, phục vụ cho việc huấn luyện và đánh giá khung GameFactory.

Mô hình khuếch tán video đã thể hiện tiềm năng mạnh mẽ trong việc tạo video và mô phỏng vật lý, được xem là công nghệ cốt lõi cho thế hệ tiếp theo của các công cụ tạo trò chơi. Những mô hình này không chỉ có khả năng tạo video có thể điều khiển hành động, mà còn phản hồi được các thao tác của người dùng (như bàn phím và chuột), hiện thực hóa việc tạo cảnh quan tương tác.
Tuy nhiên, tổng quát hóa cảnh quan là một thách thức lớn trong lĩnh vực này. Đây là khả năng tạo ra những môi trường trò chơi mới và đa dạng, vượt qua giới hạn của các cảnh quan hiện có. Phương pháp chủ yếu hiện nay là thu thập các bộ dữ liệu video gắn nhãn quy mô lớn, nhưng cách tiếp cận này tốn kém và khó thực hiện đối với các cảnh quan trong miền mở. Điều này đã hạn chế sự phát triển của các công cụ tạo trò chơi, đặc biệt trong việc tạo ra các môi trường phong phú và sáng tạo.
Sự phát triển của các mô hình khuếch tán video, từ cấu trúc U-Net truyền thống đến cấu trúc dựa trên Transformer, đã mang lại khả năng tạo video sống động hơn với thời lượng dài hơn. Một số ví dụ điển hình bao gồm:
• Direct-a-Video cung cấp khả năng kiểm soát máy quay cơ bản.
• MotionCtrl và CameraCtrl cho phép kiểm soát phức tạp hơn về tư thế máy quay và chuyển động.
Tuy nhiên, trong ứng dụng cụ thể vào lĩnh vực trò chơi, các phương pháp hiện tại như DIAMOND, GameNGen và PlayGen thường phụ thuộc quá nhiều vào các bộ dữ liệu hoặc trò chơi cụ thể, dẫn đến hạn chế khả năng tổng quát hóa.
Giới thiệu khung GameFactory
GameFactory sử dụng mô hình khuếch tán video được huấn luyện trước trên dữ liệu video trong miền mở, nhằm phá vỡ sự phụ thuộc vào các bộ dữ liệu trò chơi cụ thể. Để giải quyết khoảng cách giữa kiến thức miền mở và các bộ dữ liệu trò chơi giới hạn, GameFactory áp dụng chiến lược huấn luyện ba giai đoạn độc đáo:

1. Giai đoạn 1: Tinh chỉnh bằng LoRA
Sử dụng LoRA (Low-Rank Adaptation) để tinh chỉnh mô hình được huấn luyện trước, giúp thích nghi với miền trò chơi mục tiêu mà vẫn giữ nguyên phần lớn tham số ban đầu.
2. Giai đoạn 2: Huấn luyện mô-đun kiểm soát hành động
Sau khi cố định các tham số của mô hình huấn luyện trước và LoRA, giai đoạn này tập trung vào huấn luyện mô-đun kiểm soát hành động, nhằm tránh sự đan xen giữa phong cách và kiểm soát.
3. Giai đoạn 3: Loại bỏ trọng số LoRA
Sau khi hoàn thiện, các trọng số LoRA được loại bỏ, chỉ giữ lại tham số của mô-đun kiểm soát hành động, cho phép hệ thống tạo video trò chơi được kiểm soát trong các cảnh quan miền mở, không bị giới hạn bởi phong cách của bất kỳ trò chơi nào.



GameFactory hỗ trợ kiểm soát hành động tự hồi quy, có thể tạo video trò chơi tương tác với độ dài không giới hạn. Ngoài ra, nhóm nghiên cứu cũng phát hành bộ dữ liệu video gắn nhãn hành động chất lượng cao GF-Minecraft, phục vụ cho việc huấn luyện và đánh giá khung GameFactory.
BÀI MỚI ĐANG THẢO LUẬN