Nhóm phát triển của Bilibili đã chính thức ra mắt mã nguồn mở mô hình tạo video hoạt hình AniSora.
AniSora cho phép tạo video hoạt hình đa phong cách chỉ với một cú nhấp chuột, AniSora có thể tạo các clip video theo nhiều phong cách anime khác nhau chỉ bằng một cú nhấp chuột, bao gồm các tập phim dài tập, phim hoạt hình gốc Trung Quốc, phim chuyển thể truyện tranh, nội dung VTuber, PV anime và phim hoạt hình chế, kinh dị.
Nhóm phát triển Bilibili nhận định rằng nội dung hoạt hình đang ngày càng thu hút sự quan tâm trong ngành công nghiệp phim ảnh hiện nay. Mặc dù các mô hình tiên tiến như Sora, Kling, CogVideoX đã đạt kết quả ấn tượng trong lĩnh vực video tự nhiên, nhưng lại gặp nhiều hạn chế khi áp dụng vào video hoạt hình.
Do phong cách nghệ thuật đặc thù, chuyển động cường điệu và việc phá vỡ quy luật vật lý trong anime, việc đánh giá chất lượng cũng trở nên khó khăn hơn nhiều so với video thực.
Ảnh kèm là các bảng so sánh chất lượng giữa AniSora và các mô hình khác, cho thấy:
Bạn có thể truy cập mã nguồn và mô hình tại:
AniSora cho phép tạo video hoạt hình đa phong cách chỉ với một cú nhấp chuột, AniSora có thể tạo các clip video theo nhiều phong cách anime khác nhau chỉ bằng một cú nhấp chuột, bao gồm các tập phim dài tập, phim hoạt hình gốc Trung Quốc, phim chuyển thể truyện tranh, nội dung VTuber, PV anime và phim hoạt hình chế, kinh dị.
- Phim bộ anime
- Hoạt hình nguyên tác Trung Quốc
- Anime chuyển thể từ manga
- Nội dung VTuber
- Video ca nhạc anime (PV)
- Và các video hài hước kiểu (video chế phóng đại)
Nhóm phát triển Bilibili nhận định rằng nội dung hoạt hình đang ngày càng thu hút sự quan tâm trong ngành công nghiệp phim ảnh hiện nay. Mặc dù các mô hình tiên tiến như Sora, Kling, CogVideoX đã đạt kết quả ấn tượng trong lĩnh vực video tự nhiên, nhưng lại gặp nhiều hạn chế khi áp dụng vào video hoạt hình.
Thách thức trong đánh giá video hoạt hình
Do phong cách nghệ thuật đặc thù, chuyển động cường điệu và việc phá vỡ quy luật vật lý trong anime, việc đánh giá chất lượng cũng trở nên khó khăn hơn nhiều so với video thực.
Tổng quan hệ thống AniSora:
- Quy trình xử lý dữ liệu:
Hệ thống được huấn luyện trên hơn 10 triệu dữ liệu chất lượng cao. - Mô hình sinh có thể điều khiển:
- Tích hợp mô-đun mặt nạ không gian–thời gian (spatiotemporal mask)
- Hỗ trợ các tính năng làm hoạt hình then chốt như:
• Chuyển ảnh thành video
• Nội suy khung hình (frame interpolation)
• Hướng dẫn cục bộ bằng hình ảnh
- Bộ dữ liệu đánh giá:
- Gồm 948 đoạn video hoạt hình đa dạng
- Kết hợp đánh giá người dùng mù đôi (double-blind) và bộ đo VBench
- Các chỉ số như tính nhất quán nhân vật và tính nhất quán chuyển động đều đạt mức SOTA (State of the Art).
Đánh giá hiệu năng
Ảnh kèm là các bảng so sánh chất lượng giữa AniSora và các mô hình khác, cho thấy:
| Phương pháp | Đánh giá thủ công | Độ mượt thị giác | Chuyển động thị giác | Độ thu hút thị giác | Độ nhất quán văn bản - video | Độ nhất quán hình ảnh - video | Độ nhất quán nhân vật |
|---|---|---|---|---|---|---|---|
| Vidu-1.5 | 60.98 | 55.37 | 78.95 | 50.68 | 60.71 | 66.85 | 82.57 |
| Opensora-V1.2 | 41.10 | 22.28 | 74.90 | 22.62 | 52.19 | 55.67 | 74.76 |
| Opensora-Plan-V1.3 | 46.14 | 35.08 | 77.47 | 36.14 | 56.19 | 59.42 | 81.19 |
| CogVideoX-5B-V1 | 53.29 | 39.91 | 68.07 | 39.59 | 67.98 | 65.49 | 83.07 |
| MiniMax-I2V01 | 69.63 | 69.38 | 68.05 | 70.34 | 76.14 | 78.74 | 89.47 |
| AniSora (Ours) | 70.13 | 71.47 | 47.94 | 64.44 | 72.92 | 81.54 | 94.54 |
| AniSora (Interpolated Avg) | - | 70.78 | 53.02 | 64.41 | 73.56 | 80.62 | 91.59 |
| AniSora (KeyFrame Interp) | - | 70.03 | 58.10 | 64.57 | 74.57 | 80.78 | 91.98 |
| AniSora (KeyFrame Interp) | - | 70.03 | 58.10 | 64.57 | 74.57 | 80.78 | 91.98 |
| GT (Ground Truth) | - | 92.20 | 58.07 | 89.72 | 92.51 | 94.69 | 95.06 |
- AniSora vượt trội về tính nhất quán nhân vật (94.54%), hình ảnh - video (81.54%), và sự trơn tru thị giác.
- Trên benchmark VBench, AniSora đạt điểm cao nhất về độ mượt chuyển động (99.34) và tính nhất quán chủ thể (96.99).
Bạn có thể truy cập mã nguồn và mô hình tại:
- GitHub: github.com/bilibili/Index-anisora
- Hugging Face: huggingface.co/IndexTeam/Index-anisora
- ModelScope: modelscope.cn/organization/bilibili-index