Alibaba ra mắt mô hình tạo video Wan2.7-Video: “biết đạo diễn, giỏi diễn xuất”, tập trung toàn bộ chuỗi sáng tạo

VNZ-TECHS
Chiều nay, Alibaba chính thức công bố mô hình tạo video Wan2.7-Video. Mô hình này hỗ trợ đầu vào đa phương thức gồm văn bản, hình ảnh, video và âm thanh, tập trung vào toàn bộ chuỗi sáng tạo nội dung, bao gồm tạo mới, chỉnh sửa, tái tạo, biến đổi, điều khiển, viết tiếp và tham chiếu. Hãng tuyên bố mô hình có khả năng kiểm soát cao hơn, đa năng hơn và “biết đạo diễn, giỏi diễn xuất”.


Wan2.7 hỗ trợ nhập liệu đa phương thức (text, image, video, audio), cho phép kiểm soát linh hoạt cấu trúc hình ảnh, diễn biến nội dung, chi tiết cục bộ và thay đổi theo thời gian, giúp video có thể chỉnh sửa dễ dàng như một tài liệu.

Người dùng có thể sử dụng lệnh để điều chỉnh từng phần trong video, và các khu vực sau chỉnh sửa vẫn hòa trộn tự nhiên với phần còn lại về ánh sáng và chất liệu. Mô hình hỗ trợ thêm hoặc xóa đối tượng (ví dụ: “xóa đoàn tàu trong video”), thay thế vật thể (ví dụ: “đổi cuộn phim thành chiếc đĩa”), cũng như thay đổi thuộc tính của đối tượng (chẳng hạn màu sắc công trình). Ngoài ra, người dùng có thể dựa trên hình ảnh tham chiếu để bổ sung nội dung một cách chính xác.

Mô hình còn cho phép thay đổi môi trường và phong cách trong khi giữ nguyên chuyển động nhân vật. Ví dụ, bối cảnh có thể chuyển từ mùa hè sang cuối thu, hoặc biến đổi sang phong cách len dạ chỉ với một thao tác, tạo cảm giác như bước sang một “vũ trụ song song”.

Bên cạnh đó, Wan2.7 hỗ trợ nâng cao chất lượng video (như tô màu video đen trắng), thực hiện các tác vụ thị giác (như tách chủ thể) và điều chỉnh phương pháp quay (ví dụ thay đổi tiêu cự), đáp ứng nhiều nhu cầu chỉnh sửa khác nhau.

Đối với video đã quay hoặc tạo sẵn, người dùng có thể thay đổi nội dung kịch bản và cách quay thông qua mô tả bằng lệnh. Wan2.7 cho phép chỉnh sửa hành vi, lời thoại và góc quay của nhân vật mà không làm thay đổi danh tính hay bối cảnh ban đầu, hỗ trợ sáng tạo lại nội dung một cách linh hoạt. Mô hình cũng có thể thay đổi lời thoại của nhân vật, đồng thời giữ nguyên cảm xúc, khẩu hình và giọng nói đồng nhất. Ngoài ra, hành động của nhân vật cũng có thể được chỉnh sửa, chẳng hạn “giữ nguyên mọi thứ, nhưng cô gái ngồi trên sofa chuyển sang đứng chơi game”, chỉ thay đổi logic hành động.

Wan2.7 còn hỗ trợ diễn xuất “biến đổi” trong cùng một bối cảnh, ví dụ thay người chơi game bằng một hiệp sĩ thời Trung cổ, thay tay cầm bằng vũ khí lạnh nhưng vẫn giữ nguyên tư thế cầm. Đồng thời, người dùng có thể thay đổi các thiết lập quay như vị trí máy, góc nhìn, cỡ cảnh, loại ống kính và tiêu cự. Ví dụ “chuyển cảnh quay từ dưới đất dần nâng lên”, giúp cùng một nội dung nhưng mang lại trải nghiệm hoàn toàn khác.

Mô hình cho phép kiểm soát chính xác diễn biến nội dung thông qua các phương pháp như khung đầu – khung cuối, viết tiếp video hoặc kết hợp cả hai, đảm bảo tính liên tục động và khả năng kiểm soát cấu trúc hình ảnh.

Ngoài ra, Wan2.7 hỗ trợ tham chiếu đa phương thức (hình ảnh, video, âm thanh) để cố định ngoại hình và giọng nói. Mô hình có thể tham chiếu tối đa 5 nhân vật trong video, giúp mỗi nhân vật có giọng riêng và đảm bảo tính nhất quán giữa nhiều cảnh quay.

Người dùng có thể trải nghiệm Wan2.7-Video qua các nền tảng sau: