Vn-Z.vn Ngày 02 tháng 03 năm 2024, Sau khi OpenAI giới thiệu mô hình Sora, AI tạo sinh có thể tạo nội dung video dựa trên mô tả văn bản do người dùng nhập. Sora có thể tạo những cảnh videos phức tạp với nhiều người, các kiểu chuyển động cụ thể và bối cảnh chi tiết. Sora tạo ra các video phản ánh chính xác những nội dung văn bản được nhập vào bởi người dùng. Ví dụ: Sora có thể tạo video về những phụ nữ thời trang đi dạo trên những con phố ngập ánh đèn neon ở Tokyo, video về voi ma mút khổng lồ trong tuyết và thậm chí cả đoạn giới thiệu phim về cuộc phiêu lưu của các phi hành gia.
Gần đây nhóm các nhà khoa học đến từ Đại học Lehigh và Microsoft Research đã công bố bài đánh giá nghiên cứu đầu tiên "mổ xẻ" bằng kỹ thuật đảo ngược , bài nghiên cứu dài 37 trang và được đăng tải trên tạp chí khoa học Arxiv với tựa đề " A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models"
Dựa trên các kỹ thuật công khai và kỹ thuật đảo ngược của Sora, nhóm nghiên cứu đã tiến hành phân tích toàn diện về nền tảng mô hình, các công nghệ, ứng dụng liên quan, những thách thức hiện có và hướng phát triển trong tương lai của mô hình AI chuyển văn bản thành video.
Lịch sử phát triển của các mô hình thế hệ AI trong lĩnh vực thị giác máy tính và các mô hình thế hệ video tiêu biểu trong hai năm qua cũng được liệt kê:
Trong bài đánh giá nghiên cứu này, các nhà nghiên cứu đã sử dụng kỹ thuật đảo ngược để suy đoán các chi tiết kỹ thuật của Sora và thảo luận về một loạt công việc liên quan. Kỹ thuật của Sora liên quan rộng rãi đến các vấn đề sau -
Theo báo cáo kỹ thuật do OpenAI công bố, Sora là một mô hình khuếch tán được đào tạo trên video và hình ảnh có thời lượng, độ phân giải và tỷ lệ khung hình khác nhau. Nó cũng sử dụng kiến trúc Transformer, hay còn gọi là "cụ thể là một "Transformer lan truyền".
Thông qua việc xem xét lại công việc hiện tại và sử dụng kỹ thuật đảo ngược, các nhà nghiên cho rằng cấu trúc toàn bộ của Sora có thể được tạo thành từ ba phần như sau:
Đầu tiên, máy nén thời gian-không gian sẽ ánh xạ video ban đầu vào không gian tiềm ẩn;
Tiếp theo, ViT sẽ xử lý các biểu diễn tiềm ẩn này sau khi được token hóa và đầu ra là biểu diễn tiềm ẩn sau khi loại bỏ nhiễu;
Cơ chế điều kiện tương tự như CLIP sẽ nhận lệnh từ người dùng được tăng cường bởi LLM và gợi ý hình ảnh tiềm ẩn, tạo ra video với chủ đề và phong cách cụ thể. Sau nhiều vòng lặp loại bỏ nhiễu, cuối cùng sẽ thu được biểu diễn tiềm ẩn của video được tạo ra, sau đó được ánh xạ trở lại không gian pixel thông qua bộ giải mã tương ứng.
Chi tiết hơn, Thông qua kỹ thuật đảo ngược, dường như Sora đã sử dụng kiến trúc mô hình lan truyền cascade, kết hợp giữa mô hình cơ bản và nhiều mô hình tinh chỉnh thời gian-không gian.
Do chi phí tính toán của cơ chế chú ý ở độ phân giải cao là cao và hiệu suất cải thiện hạn chế, việc sử dụng các mô hình lan truyền cơ bản và mô hình lan truyền tinh chỉnh thời gian-không gian ở độ phân giải thấp có thể không sử dụng mô-đun chú ý một cách rộng rãi.
Đồng thời, khi xem xét việc tạo ra video / cảnh quan, tính nhất quán thời gian được coi là quan trọng hơn tính nhất quán không gian, Sora có thể sử dụng chiến lược đào tạo hiệu quả với video dài (để đảm bảo tính nhất quán thời gian) và độ phân giải thấp để đảm bảo tính nhất quán trên cả không gian và thời gian.
Ngoài ra, khi xem xét so với các biến thể khác của việc dự đoán các biến thể tiềm ẩn ban đầu x hoặc nhiễu ε, hiệu suất của mô hình lan truyền được tham số hóa bằng v có thể được Sora ưu tiên sử dụng.
Đối với trình mã hóa tiềm ẩn, hầu hết các nghiên cứu hiện tại đề xuất sử dụng bộ mã hóa VAE được tiền huấn luyện từ Stable Diffusion như một checkpoint mô hình để cải thiện hiệu suất đào tạo.
Tuy nhiên, trình mã hóa thiếu khả năng nén thời gian. Mặc dù một số nghiên cứu đề xuất chỉ điều chỉnh trình giải mã để xử lý thông tin thời gian, nhưng hiệu suất của trình giải mã trong việc xử lý dữ liệu thời gian của video trong không gian tiềm ẩn đã được nén vẫn không phải là tốt nhất.
Dựa trên báo cáo kỹ thuật, các nhà nghiên cứu ước đoán rằng Sora có thể không sử dụng trình mã hóa VAE được tiền huấn luyện hiện có, mà thay vào đó sử dụng trình mã hóa VAE thời gian-không gian được đào tạo từ đầu trên dữ liệu video, hiệu suất của trình mã hóa này trong việc nén không gian tiềm ẩn được tối ưu hóa cho nội dung video.
Tiền xử lý dữ liệu trực quan đa dạng
Không giống như các phương pháp truyền thống yêu cầu cắt kích thước video hoặc điều chỉnh tỷ lệ khung hình để phù hợp với kích thước tiêu chuẩn thống nhất, Sora có thể đào tạo, hiểu và tạo video trên video và hình ảnh có kích thước gốc.
Điều đó có nghĩa là, nó có thể xử lý dữ liệu hình ảnh đa dạng mà không làm mất các mẫu có kích thước ban đầu, giúp cải thiện đáng kể cấu trúc và khung video của Sora, giúp các video được tạo ra trở nên tự nhiên và mạch lạc hơn.
Ví dụ như hình dưới đây khi được đào tạo bằng các phương pháp truyền thống, trong phần video bên trái, phần nội dung chính của video bị cắt do kỹ thuật cắt vuông, trong khi ở hình ảnh bên phải, được đào tạo bằng các mẫu gốc, phần nội dung chính của video được ghi lại hoàn toàn .
OpenAI đã tập trung giới thiệu trong báo cáo kỹ thuật, nhưng chỉ đưa ra một ý tưởng cấp cao:
Để xử lý hình ảnh và video có độ phân giải, tỷ lệ khung hình và thời lượng khác nhau, Sora sử dụng một biểu diễn thị giác thống nhất. Cụ thể, mô hình sẽ nén video vào không gian tiềm ẩn có số chiều thấp, sau đó phân rã biểu diễn thành các patch thời gian-không gian, từ đó thực hiện việc "patch hóa" video.
Các nhà nghiên cứu đã phân tích như sau:
Mạng nén video của Sora (bộ mã hóa thị giác) được thiết kế để giảm số chiều của dữ liệu đầu vào (video gốc) và đầu ra là một biểu diễn tiềm ẩn đã được nén cả về thời gian và không gian.
Dựa trên các tài liệu tham khảo trong báo cáo kỹ thuật của Sora, mạng nén được xây dựng trên cơ sở của VAE hoặc VQ-VAE. Nếu theo như những gì được đề cập trong báo cáo kỹ thuật, khi không điều chỉnh kích thước hoặc cắt ghép, VAE sẽ gặp khó khăn trong việc ánh xạ dữ liệu thị giác vào một không gian tiềm ẩn thống nhất và cố định.
Tuy nhiên, đã tổng hợp hai phương pháp để giải quyết vấn đề này.
Một phương pháp là nén patch không gian (Spatial-patch Compression), tương tự như các phương pháp được sử dụng trong ViT và MAE, nơi các khung video được chia thành các patch có kích thước cố định và sau đó được mã hóa vào không gian tiềm ẩn.
Dưới đây là nội dung đã được dịch sang tiếng Việt:
Có một số vấn đề chính cần lưu ý:
1. Sự biến đổi của chiều thời gian: Do độ dài của video không đồng nhất và số chiều của không gian tiềm ẩn không cố định, cần phải tích hợp thông tin thời gian bằng cách lấy mẫu số khung cố định hoặc đặt độ dài đầu vào siêu dài để đồng nhất thông tin thời gian.
2. Sử dụng trình mã hóa thị giác được tiền huấn luyện: Đa số các nhà nghiên cứu thích sử dụng các trình mã hóa trước tiên được tiền huấn luyện như VAE của Stable Diffusion, nhưng nhóm Sora có thể đã tự huấn luyện các trình mã hóa và giải mã, có khả năng xử lý dữ liệu patch lớn một cách hiệu quả.
3.Tích hợp thông tin thời gian: Vì phương pháp này chủ yếu tập trung vào việc nén patch không gian, nên cần có cơ chế bổ sung trong mô hình để tổng hợp thông tin thời gian, điều này rất quan trọng để nắm bắt sự biến đổi động.
Một phương pháp khác là nén patch không gian-thời gian (Spatial-temporal-patch Compression), sử dụng các convolution 3D để trích xuất thông tin thời gian.
Phương pháp này đóng gói cả không gian và thời gian của dữ liệu video cùng một lúc, cung cấp một biểu diễn toàn diện của video, cân nhắc cả chuyển động và thay đổi giữa các khung hình, từ đó bắt lấy đặc điểm động của video.
Tương tự như nén patch không gian, nén patch không gian-thời gian sử dụng các tham số cố định của convolution để xử lý video. Do sự khác biệt trong các đặc điểm đầu vào của video, dẫn đến sự thay đổi về số chiều của không gian tiềm ẩn, vì vậy phương pháp nén patch đã đề cập trong bài viết trước cũng có thể áp dụng và hiệu quả.
Một vấn đề chính trong phần mạng nén là làm thế nào để xử lý số lượng patch hoặc khối tính năng tiềm ẩn khác nhau trong các loại video khác nhau, sau đó đưa chúng vào lớp đầu vào của Transformer của Diffusion?
Dựa trên báo cáo kỹ thuật của Sora và các tài liệu tham khảo tương ứng, nhà nghiên cứu cho rằng phương pháp "patch n' pack" (PNP) có thể là một giải pháp cho vấn đề này.
PNP gói nhiều patch từ các hình ảnh khác nhau vào một chuỗi, tương tự như việc gói ví dụ trong NLP, thông qua việc loại bỏ token để phù hợp với việc huấn luyện hiệu quả trên đầu vào có độ dài biến đổi.
Trong quá trình gói, cần xem xét cách gói các patch này một cách gọn gàng và làm thế nào để kiểm soát những patch nào nên bị loại bỏ.
Đối với vấn đề đầu tiên, các nhà nghiên cứu đã đề cập đến một thuật toán đơn giản, tức là thêm ví dụ khi còn đủ không gian còn lại, sau đó sử dụng token để điền vào chuỗi để có được độ dài chuỗi cố định cần thiết cho các hoạt động lô.
Đối với vấn đề thứ hai, một cách tiếp cận trực quan là loại bỏ các token tương tự, hoặc áp dụng một lịch trình loại bỏ token giống như PNP.
Tuy nhiên, việc loại bỏ token có thể dẫn đến việc mất mát một số chi tiết trong quá trình huấn luyện. Do đó, các nhà nghiên cứu cho rằng OpenAI có thể sử dụng một cửa sổ ngữ cảnh siêu dài để gói tất cả các token trong video.
Các patch không gian-thời gian của video dài có thể được gói vào một chuỗi, trong khi các patch từ nhiều video ngắn khác nhau được kết nối trong một chuỗi khác.
Tổng cộng, trong quá trình tiền xử lý dữ liệu, các nhà nghiên cứu ước đoán rằng Sora trước tiên sẽ nén các patch thị giác thành biểu diễn tiềm ẩn chiều thấp, sau đó sắp xếp các patch tiềm ẩn này hoặc tiếp tục patch hóa chúng thành một chuỗi trước khi tiêm vào nhiễu trước khi đưa các patch tiềm ẩn này vào lớp đầu vào của Diffusion Transformer.
Sora chọn cách patch hóa không gian-thời gian vì nó dễ thực hiện và có thể giảm độ dài ngữ cảnh chứa các token có mật độ thông tin cao, giảm độ phức tạp trong việc mô hình hóa thông tin thời gian ở bước tiếp theo.
Video Description Generator Optimization: Sora's Approach
Mục tiêu của Tinh chỉnh Chỉ thị Mô hình:
Tinh chỉnh mô hình AI nhằm tăng cường khả năng của mô hình tuân theo chỉ thị, giúp mô hình có thể đáp ứng các yêu cầu của người dùng một cách rộng rãi hơn. Điều này đảm bảo rằng mô hình chú ý đến các chi tiết trong chỉ thị và tạo ra các video chính xác phù hợp với nhu cầu của người dùng.
Phương pháp của Sora:
Sora sử dụng một phương pháp tương tự như DALL・E 3:
- Đầu tiên, huấn luyện một mô hình tạo mô tả video chi tiết (Video captioner). Sau đó, áp dụng mô hình này vào tất cả các video trong dữ liệu huấn luyện để tạo ra các cặp video-văn bản chất lượng cao. Sử dụng các cặp video-văn bản này để điều chỉnh Sora, nâng cao khả năng tuân theo chỉ thị của nó.
Chi tiết về việc huấn luyện Mô tả Video:
Tuy nhiên, báo cáo kỹ thuật của Sora không tiết lộ chi tiết về việc huấn luyện mô hình tóm tắt video. Mặc dù mô hình tóm tắt video là một mô hình video-văn bản, có nhiều phương pháp để xây dựng nó.
Một trong những phương pháp là sử dụng kiến trúc CoCa để tạo ra tóm tắt video. Kiến trúc này bao gồm việc lấy mẫu nhiều khung hình của video và đưa mỗi khung hình vào một trình mã hóa hình ảnh VideoCoCa. VideoCoCa dựa trên CoCa và sử dụng lại trọng số của trình mã hóa hình ảnh đã được tiền huấn luyện, độc lập áp dụng cho các khung hình được lấy mẫu. Các token nhúng khung hình thu được được làm phẳng và nối thành một chuỗi biểu diễn video dài. Các token nhúng này sau đó được xử lý bằng một trình tạo cụ thể và một trình tạo so sánh, hai trình này được huấn luyện kết hợp với tổn thất so sánh và tổn thất tóm tắt để tạo ra.
Ngoài ra, các lựa chọn khác để xây dựng mô hình tạo mô tả video bao gồm mPLUG-2, GIT, FrozenBiLM, v.v.
Cuối cùng, để đảm bảo rằng chỉ thị của người dùng phù hợp với định dạng tóm tắt mô tả trong dữ liệu huấn luyện, Sora thực hiện một bước mở rộng chỉ thị bổ sung, trong đó sử dụng GPT-4V để mở rộng đầu vào của người dùng thành các chỉ thị mô tả chi tiết.
Kỹ Thuật Hướng Dẫn nhắc nhở Video
Kỹ thuật hướng dẫn nhắc nhở video được thiết kế để dẫn dắt mô hình AI tạo ra nội dung phù hợp với ý định của người dùng.
Trước đây, nghiên cứu về kỹ thuật hướng dẫn tập trung chủ yếu vào việc hướng dẫn mô hình ngôn ngữ tự nhiên và sinh hình ảnh từ văn bản. Các nhà nghiên cứu dự đoán rằng hướng dẫn video cho mô hình tạo video sẽ trở nên ngày càng quan trọng.
Hiệu suất của kỹ thuật hướng dẫn phụ thuộc vào việc chọn từ chính xác, mô tả rõ ràng các chi tiết và sự hiểu biết sâu sắc về cách những chi tiết này ảnh hưởng đến kết quả của mô hình. Ví dụ, trong hình ảnh dưới đây, các từ hướng dẫn mô tả chi tiết về hành động, môi trường, trang phục nhân vật, thậm chí cả tâm trạng mong muốn và bầu không khí của cảnh.
Sora cũng có thể tận dụng cả thông tin hình ảnh và văn bản để chuyển đổi hình ảnh tĩnh thành video động, có nội dung tường thuật.
Ngoài ra, Sora cũng có thể mở rộng video tiến hoặc lùi và bạn có thể chỉ định hướng, chủ đề, v.v. của phần mở rộng thông qua lời nhắc.
Trong hình ảnh (a)trên, lời nhắc video sẽ hướng dẫn Sora quay ngược lại đoạn video mở rộng. Trong hình (b) , khi chuyển cảnh video, người mẫu cần hiểu rõ phong cách video, bầu không khí, sự thay đổi ánh sáng và bóng râm cũng như các chi tiết khác thông qua lời nhắc. Trong Hình (c), việc hướng dẫn Sora kết nối với video và chuyển đổi mượt mà giữa các đối tượng trong các cảnh khác nhau cũng đòi hỏi phải thực hiện kỹ thuật nhanh chóng.
Sora là một cột mốc
Sora đã làm bùng nổ trong và ngoài ngành và được gọi là khoảnh khắc GPT-3 và GPT-2 do video tạo ra.
Nhìn vào lịch sử phát triển của các mô hình tạo AI trong lĩnh vực thị giác máy tính (CV), bước đột phá của Sora có thể còn rõ ràng hơn.
Năm triển vọng và hạn chế ứng dụng chính của Sora
Các nhà nghiên cứu kết luận rằng Sora có năm điểm nổi bật chính: cải thiện khả năng mô phỏng, thúc đẩy tính sáng tạo, thúc đẩy đổi mới giáo dục, nâng cao khả năng tiếp cận và thúc đẩy các ứng dụng mới nổi.
Triển Vọng
1. Sản xuất phim: Ứng dụng Sora mang tính cách mạng trong lĩnh vực sản xuất phim, nó có thể chuyển đổi kịch bản văn bản thành video kiểu phim, hạ thấp ngưỡng sản xuất phim và cho phép các cá nhân sáng tạo sản xuất nội dung phim.
2. Giáo dục: Trong lĩnh vực giáo dục, Sora có thể chuyển đổi giáo trình hoặc mô tả văn bản thành nội dung video động, cải thiện sự tham gia và hiểu biết của học sinh, đồng thời mang đến những cơ hội chưa từng có để tùy chỉnh và kích hoạt các tài liệu giáo dục.
3. Trò chơi: Việc phát triển trò chơi truyền thống thường bị hạn chế bởi môi trường được kết xuất sẵn và các sự kiện theo kịch bản. Có khả năng tạo nội dung video động, độ trung thực cao và âm thanh trung thực trong thời gian thực, các mô hình khuếch tán hứa hẹn sẽ khắc phục những hạn chế hiện có và cung cấp cho nhà phát triển các công cụ để tạo môi trường trò chơi phát triển phản ứng một cách tự nhiên với hành động của người chơi và các sự kiện trong trò chơi.
4. Chăm sóc sức khỏe: Trong lĩnh vực y tế, nó đặc biệt thích hợp để xác định các bất thường năng động trong cơ thể, chẳng hạn như apoptosis tế bào sớm, tiến triển tổn thương da và cử động bất thường của con người, điều này rất quan trọng cho các chiến lược can thiệp và phát hiện bệnh sớm.
5. Robot: Trong lĩnh vực robot, Sora có thể nâng cao khả năng nhận thức trực quan và ra quyết định của robot. Cho phép họ tương tác với môi trường và thực hiện các nhiệm vụ với độ phức tạp và độ chính xác chưa từng có.
Tuy nhiên, mặc dù Sora đã đạt được tiến bộ đáng kể trong việc tạo video AI nhưng nó vẫn phải đối mặt với một số thách thức.
Việc đảm bảo tính chất an toàn liên tục và không thiên vị của đầu ra của Sora là một thách thức lớn bằng cách giải quyết các vấn đề sai lệch trong nội dung được tạo và ngăn chặn việc tạo ra nội dung hình ảnh có hại.
Các hạn chế bao gồm:
1. Những thách thức về tính chân thực về mặt vật lý: Sora có sự mâu thuẫn trong cách xử lý tính chất vật lý của các cảnh phức tạp, ví dụ: ăn một chiếc bánh quy không nhất thiết phải để lại vết cắn.
2. Độ phức tạp về không gian và thời gian: Sora đôi khi gặp khó khăn trong việc hiểu chính xác bố cục không gian và hướng dẫn sắp xếp thời gian, dẫn đến nhầm lẫn về vị trí hoặc cách sắp xếp các đồ vật và ký tự.
3. Hạn chế của tương tác giữa người và máy tính: Người dùng khó thực hiện các sửa đổi hoặc tối ưu hóa chi tiết đối với nội dung được tạo.
4 . Hạn chế sử dụng: OpenAI chưa mở Sora ra công chúng. Sora vẫn có thể yêu cầu cải tiến và thử nghiệm thêm về mặt bảo mật, bảo vệ quyền riêng tư và đánh giá nội dung. Và hiện tại Sora chỉ có thể tạo video dài tối đa một phút, hạn chế việc sử dụng nó trong các tình huống ứng dụng cần hiển thị nội dung dài hơn.
Trên đây là một số chi tiết liên quan đến Sora, các độc giả quan tâm có thể tìm hiểu thêm thông tin trong bản gốc của bài nghiên cứu trên tạp chí Arxiv
Gần đây nhóm các nhà khoa học đến từ Đại học Lehigh và Microsoft Research đã công bố bài đánh giá nghiên cứu đầu tiên "mổ xẻ" bằng kỹ thuật đảo ngược , bài nghiên cứu dài 37 trang và được đăng tải trên tạp chí khoa học Arxiv với tựa đề " A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models"
Dựa trên các kỹ thuật công khai và kỹ thuật đảo ngược của Sora, nhóm nghiên cứu đã tiến hành phân tích toàn diện về nền tảng mô hình, các công nghệ, ứng dụng liên quan, những thách thức hiện có và hướng phát triển trong tương lai của mô hình AI chuyển văn bản thành video.
Lịch sử phát triển của các mô hình thế hệ AI trong lĩnh vực thị giác máy tính và các mô hình thế hệ video tiêu biểu trong hai năm qua cũng được liệt kê:
Trong bài đánh giá nghiên cứu này, các nhà nghiên cứu đã sử dụng kỹ thuật đảo ngược để suy đoán các chi tiết kỹ thuật của Sora và thảo luận về một loạt công việc liên quan. Kỹ thuật của Sora liên quan rộng rãi đến các vấn đề sau -
Theo báo cáo kỹ thuật do OpenAI công bố, Sora là một mô hình khuếch tán được đào tạo trên video và hình ảnh có thời lượng, độ phân giải và tỷ lệ khung hình khác nhau. Nó cũng sử dụng kiến trúc Transformer, hay còn gọi là "cụ thể là một "Transformer lan truyền".
Thông qua việc xem xét lại công việc hiện tại và sử dụng kỹ thuật đảo ngược, các nhà nghiên cho rằng cấu trúc toàn bộ của Sora có thể được tạo thành từ ba phần như sau:
Đầu tiên, máy nén thời gian-không gian sẽ ánh xạ video ban đầu vào không gian tiềm ẩn;
Tiếp theo, ViT sẽ xử lý các biểu diễn tiềm ẩn này sau khi được token hóa và đầu ra là biểu diễn tiềm ẩn sau khi loại bỏ nhiễu;
Cơ chế điều kiện tương tự như CLIP sẽ nhận lệnh từ người dùng được tăng cường bởi LLM và gợi ý hình ảnh tiềm ẩn, tạo ra video với chủ đề và phong cách cụ thể. Sau nhiều vòng lặp loại bỏ nhiễu, cuối cùng sẽ thu được biểu diễn tiềm ẩn của video được tạo ra, sau đó được ánh xạ trở lại không gian pixel thông qua bộ giải mã tương ứng.
Do chi phí tính toán của cơ chế chú ý ở độ phân giải cao là cao và hiệu suất cải thiện hạn chế, việc sử dụng các mô hình lan truyền cơ bản và mô hình lan truyền tinh chỉnh thời gian-không gian ở độ phân giải thấp có thể không sử dụng mô-đun chú ý một cách rộng rãi.
Đồng thời, khi xem xét việc tạo ra video / cảnh quan, tính nhất quán thời gian được coi là quan trọng hơn tính nhất quán không gian, Sora có thể sử dụng chiến lược đào tạo hiệu quả với video dài (để đảm bảo tính nhất quán thời gian) và độ phân giải thấp để đảm bảo tính nhất quán trên cả không gian và thời gian.
Đối với trình mã hóa tiềm ẩn, hầu hết các nghiên cứu hiện tại đề xuất sử dụng bộ mã hóa VAE được tiền huấn luyện từ Stable Diffusion như một checkpoint mô hình để cải thiện hiệu suất đào tạo.
Tuy nhiên, trình mã hóa thiếu khả năng nén thời gian. Mặc dù một số nghiên cứu đề xuất chỉ điều chỉnh trình giải mã để xử lý thông tin thời gian, nhưng hiệu suất của trình giải mã trong việc xử lý dữ liệu thời gian của video trong không gian tiềm ẩn đã được nén vẫn không phải là tốt nhất.
Dựa trên báo cáo kỹ thuật, các nhà nghiên cứu ước đoán rằng Sora có thể không sử dụng trình mã hóa VAE được tiền huấn luyện hiện có, mà thay vào đó sử dụng trình mã hóa VAE thời gian-không gian được đào tạo từ đầu trên dữ liệu video, hiệu suất của trình mã hóa này trong việc nén không gian tiềm ẩn được tối ưu hóa cho nội dung video.
Tiền xử lý dữ liệu trực quan đa dạng
Không giống như các phương pháp truyền thống yêu cầu cắt kích thước video hoặc điều chỉnh tỷ lệ khung hình để phù hợp với kích thước tiêu chuẩn thống nhất, Sora có thể đào tạo, hiểu và tạo video trên video và hình ảnh có kích thước gốc.
Điều đó có nghĩa là, nó có thể xử lý dữ liệu hình ảnh đa dạng mà không làm mất các mẫu có kích thước ban đầu, giúp cải thiện đáng kể cấu trúc và khung video của Sora, giúp các video được tạo ra trở nên tự nhiên và mạch lạc hơn.
OpenAI đã tập trung giới thiệu trong báo cáo kỹ thuật, nhưng chỉ đưa ra một ý tưởng cấp cao:
Để xử lý hình ảnh và video có độ phân giải, tỷ lệ khung hình và thời lượng khác nhau, Sora sử dụng một biểu diễn thị giác thống nhất. Cụ thể, mô hình sẽ nén video vào không gian tiềm ẩn có số chiều thấp, sau đó phân rã biểu diễn thành các patch thời gian-không gian, từ đó thực hiện việc "patch hóa" video.
Các nhà nghiên cứu đã phân tích như sau:
Mạng nén video của Sora (bộ mã hóa thị giác) được thiết kế để giảm số chiều của dữ liệu đầu vào (video gốc) và đầu ra là một biểu diễn tiềm ẩn đã được nén cả về thời gian và không gian.
Dựa trên các tài liệu tham khảo trong báo cáo kỹ thuật của Sora, mạng nén được xây dựng trên cơ sở của VAE hoặc VQ-VAE. Nếu theo như những gì được đề cập trong báo cáo kỹ thuật, khi không điều chỉnh kích thước hoặc cắt ghép, VAE sẽ gặp khó khăn trong việc ánh xạ dữ liệu thị giác vào một không gian tiềm ẩn thống nhất và cố định.
Tuy nhiên, đã tổng hợp hai phương pháp để giải quyết vấn đề này.
Một phương pháp là nén patch không gian (Spatial-patch Compression), tương tự như các phương pháp được sử dụng trong ViT và MAE, nơi các khung video được chia thành các patch có kích thước cố định và sau đó được mã hóa vào không gian tiềm ẩn.
Có một số vấn đề chính cần lưu ý:
1. Sự biến đổi của chiều thời gian: Do độ dài của video không đồng nhất và số chiều của không gian tiềm ẩn không cố định, cần phải tích hợp thông tin thời gian bằng cách lấy mẫu số khung cố định hoặc đặt độ dài đầu vào siêu dài để đồng nhất thông tin thời gian.
2. Sử dụng trình mã hóa thị giác được tiền huấn luyện: Đa số các nhà nghiên cứu thích sử dụng các trình mã hóa trước tiên được tiền huấn luyện như VAE của Stable Diffusion, nhưng nhóm Sora có thể đã tự huấn luyện các trình mã hóa và giải mã, có khả năng xử lý dữ liệu patch lớn một cách hiệu quả.
3.Tích hợp thông tin thời gian: Vì phương pháp này chủ yếu tập trung vào việc nén patch không gian, nên cần có cơ chế bổ sung trong mô hình để tổng hợp thông tin thời gian, điều này rất quan trọng để nắm bắt sự biến đổi động.
Một phương pháp khác là nén patch không gian-thời gian (Spatial-temporal-patch Compression), sử dụng các convolution 3D để trích xuất thông tin thời gian.
Phương pháp này đóng gói cả không gian và thời gian của dữ liệu video cùng một lúc, cung cấp một biểu diễn toàn diện của video, cân nhắc cả chuyển động và thay đổi giữa các khung hình, từ đó bắt lấy đặc điểm động của video.
Tương tự như nén patch không gian, nén patch không gian-thời gian sử dụng các tham số cố định của convolution để xử lý video. Do sự khác biệt trong các đặc điểm đầu vào của video, dẫn đến sự thay đổi về số chiều của không gian tiềm ẩn, vì vậy phương pháp nén patch đã đề cập trong bài viết trước cũng có thể áp dụng và hiệu quả.
Một vấn đề chính trong phần mạng nén là làm thế nào để xử lý số lượng patch hoặc khối tính năng tiềm ẩn khác nhau trong các loại video khác nhau, sau đó đưa chúng vào lớp đầu vào của Transformer của Diffusion?
Dựa trên báo cáo kỹ thuật của Sora và các tài liệu tham khảo tương ứng, nhà nghiên cứu cho rằng phương pháp "patch n' pack" (PNP) có thể là một giải pháp cho vấn đề này.
Trong quá trình gói, cần xem xét cách gói các patch này một cách gọn gàng và làm thế nào để kiểm soát những patch nào nên bị loại bỏ.
Đối với vấn đề đầu tiên, các nhà nghiên cứu đã đề cập đến một thuật toán đơn giản, tức là thêm ví dụ khi còn đủ không gian còn lại, sau đó sử dụng token để điền vào chuỗi để có được độ dài chuỗi cố định cần thiết cho các hoạt động lô.
Đối với vấn đề thứ hai, một cách tiếp cận trực quan là loại bỏ các token tương tự, hoặc áp dụng một lịch trình loại bỏ token giống như PNP.
Tuy nhiên, việc loại bỏ token có thể dẫn đến việc mất mát một số chi tiết trong quá trình huấn luyện. Do đó, các nhà nghiên cứu cho rằng OpenAI có thể sử dụng một cửa sổ ngữ cảnh siêu dài để gói tất cả các token trong video.
Các patch không gian-thời gian của video dài có thể được gói vào một chuỗi, trong khi các patch từ nhiều video ngắn khác nhau được kết nối trong một chuỗi khác.
Tổng cộng, trong quá trình tiền xử lý dữ liệu, các nhà nghiên cứu ước đoán rằng Sora trước tiên sẽ nén các patch thị giác thành biểu diễn tiềm ẩn chiều thấp, sau đó sắp xếp các patch tiềm ẩn này hoặc tiếp tục patch hóa chúng thành một chuỗi trước khi tiêm vào nhiễu trước khi đưa các patch tiềm ẩn này vào lớp đầu vào của Diffusion Transformer.
Sora chọn cách patch hóa không gian-thời gian vì nó dễ thực hiện và có thể giảm độ dài ngữ cảnh chứa các token có mật độ thông tin cao, giảm độ phức tạp trong việc mô hình hóa thông tin thời gian ở bước tiếp theo.
Video Description Generator Optimization: Sora's Approach
Mục tiêu của Tinh chỉnh Chỉ thị Mô hình:
Tinh chỉnh mô hình AI nhằm tăng cường khả năng của mô hình tuân theo chỉ thị, giúp mô hình có thể đáp ứng các yêu cầu của người dùng một cách rộng rãi hơn. Điều này đảm bảo rằng mô hình chú ý đến các chi tiết trong chỉ thị và tạo ra các video chính xác phù hợp với nhu cầu của người dùng.
Phương pháp của Sora:
Sora sử dụng một phương pháp tương tự như DALL・E 3:
- Đầu tiên, huấn luyện một mô hình tạo mô tả video chi tiết (Video captioner). Sau đó, áp dụng mô hình này vào tất cả các video trong dữ liệu huấn luyện để tạo ra các cặp video-văn bản chất lượng cao. Sử dụng các cặp video-văn bản này để điều chỉnh Sora, nâng cao khả năng tuân theo chỉ thị của nó.
Chi tiết về việc huấn luyện Mô tả Video:
Tuy nhiên, báo cáo kỹ thuật của Sora không tiết lộ chi tiết về việc huấn luyện mô hình tóm tắt video. Mặc dù mô hình tóm tắt video là một mô hình video-văn bản, có nhiều phương pháp để xây dựng nó.
Một trong những phương pháp là sử dụng kiến trúc CoCa để tạo ra tóm tắt video. Kiến trúc này bao gồm việc lấy mẫu nhiều khung hình của video và đưa mỗi khung hình vào một trình mã hóa hình ảnh VideoCoCa. VideoCoCa dựa trên CoCa và sử dụng lại trọng số của trình mã hóa hình ảnh đã được tiền huấn luyện, độc lập áp dụng cho các khung hình được lấy mẫu. Các token nhúng khung hình thu được được làm phẳng và nối thành một chuỗi biểu diễn video dài. Các token nhúng này sau đó được xử lý bằng một trình tạo cụ thể và một trình tạo so sánh, hai trình này được huấn luyện kết hợp với tổn thất so sánh và tổn thất tóm tắt để tạo ra.
Ngoài ra, các lựa chọn khác để xây dựng mô hình tạo mô tả video bao gồm mPLUG-2, GIT, FrozenBiLM, v.v.
Cuối cùng, để đảm bảo rằng chỉ thị của người dùng phù hợp với định dạng tóm tắt mô tả trong dữ liệu huấn luyện, Sora thực hiện một bước mở rộng chỉ thị bổ sung, trong đó sử dụng GPT-4V để mở rộng đầu vào của người dùng thành các chỉ thị mô tả chi tiết.
Kỹ Thuật Hướng Dẫn nhắc nhở Video
Kỹ thuật hướng dẫn nhắc nhở video được thiết kế để dẫn dắt mô hình AI tạo ra nội dung phù hợp với ý định của người dùng.
Trước đây, nghiên cứu về kỹ thuật hướng dẫn tập trung chủ yếu vào việc hướng dẫn mô hình ngôn ngữ tự nhiên và sinh hình ảnh từ văn bản. Các nhà nghiên cứu dự đoán rằng hướng dẫn video cho mô hình tạo video sẽ trở nên ngày càng quan trọng.
Hiệu suất của kỹ thuật hướng dẫn phụ thuộc vào việc chọn từ chính xác, mô tả rõ ràng các chi tiết và sự hiểu biết sâu sắc về cách những chi tiết này ảnh hưởng đến kết quả của mô hình. Ví dụ, trong hình ảnh dưới đây, các từ hướng dẫn mô tả chi tiết về hành động, môi trường, trang phục nhân vật, thậm chí cả tâm trạng mong muốn và bầu không khí của cảnh.
Sora là một cột mốc
Sora đã làm bùng nổ trong và ngoài ngành và được gọi là khoảnh khắc GPT-3 và GPT-2 do video tạo ra.
Nhìn vào lịch sử phát triển của các mô hình tạo AI trong lĩnh vực thị giác máy tính (CV), bước đột phá của Sora có thể còn rõ ràng hơn.
Năm triển vọng và hạn chế ứng dụng chính của Sora
Các nhà nghiên cứu kết luận rằng Sora có năm điểm nổi bật chính: cải thiện khả năng mô phỏng, thúc đẩy tính sáng tạo, thúc đẩy đổi mới giáo dục, nâng cao khả năng tiếp cận và thúc đẩy các ứng dụng mới nổi.
Triển Vọng
1. Sản xuất phim: Ứng dụng Sora mang tính cách mạng trong lĩnh vực sản xuất phim, nó có thể chuyển đổi kịch bản văn bản thành video kiểu phim, hạ thấp ngưỡng sản xuất phim và cho phép các cá nhân sáng tạo sản xuất nội dung phim.
2. Giáo dục: Trong lĩnh vực giáo dục, Sora có thể chuyển đổi giáo trình hoặc mô tả văn bản thành nội dung video động, cải thiện sự tham gia và hiểu biết của học sinh, đồng thời mang đến những cơ hội chưa từng có để tùy chỉnh và kích hoạt các tài liệu giáo dục.
3. Trò chơi: Việc phát triển trò chơi truyền thống thường bị hạn chế bởi môi trường được kết xuất sẵn và các sự kiện theo kịch bản. Có khả năng tạo nội dung video động, độ trung thực cao và âm thanh trung thực trong thời gian thực, các mô hình khuếch tán hứa hẹn sẽ khắc phục những hạn chế hiện có và cung cấp cho nhà phát triển các công cụ để tạo môi trường trò chơi phát triển phản ứng một cách tự nhiên với hành động của người chơi và các sự kiện trong trò chơi.
4. Chăm sóc sức khỏe: Trong lĩnh vực y tế, nó đặc biệt thích hợp để xác định các bất thường năng động trong cơ thể, chẳng hạn như apoptosis tế bào sớm, tiến triển tổn thương da và cử động bất thường của con người, điều này rất quan trọng cho các chiến lược can thiệp và phát hiện bệnh sớm.
5. Robot: Trong lĩnh vực robot, Sora có thể nâng cao khả năng nhận thức trực quan và ra quyết định của robot. Cho phép họ tương tác với môi trường và thực hiện các nhiệm vụ với độ phức tạp và độ chính xác chưa từng có.
Tuy nhiên, mặc dù Sora đã đạt được tiến bộ đáng kể trong việc tạo video AI nhưng nó vẫn phải đối mặt với một số thách thức.
Việc đảm bảo tính chất an toàn liên tục và không thiên vị của đầu ra của Sora là một thách thức lớn bằng cách giải quyết các vấn đề sai lệch trong nội dung được tạo và ngăn chặn việc tạo ra nội dung hình ảnh có hại.
Các hạn chế bao gồm:
1. Những thách thức về tính chân thực về mặt vật lý: Sora có sự mâu thuẫn trong cách xử lý tính chất vật lý của các cảnh phức tạp, ví dụ: ăn một chiếc bánh quy không nhất thiết phải để lại vết cắn.
2. Độ phức tạp về không gian và thời gian: Sora đôi khi gặp khó khăn trong việc hiểu chính xác bố cục không gian và hướng dẫn sắp xếp thời gian, dẫn đến nhầm lẫn về vị trí hoặc cách sắp xếp các đồ vật và ký tự.
3. Hạn chế của tương tác giữa người và máy tính: Người dùng khó thực hiện các sửa đổi hoặc tối ưu hóa chi tiết đối với nội dung được tạo.
4 . Hạn chế sử dụng: OpenAI chưa mở Sora ra công chúng. Sora vẫn có thể yêu cầu cải tiến và thử nghiệm thêm về mặt bảo mật, bảo vệ quyền riêng tư và đánh giá nội dung. Và hiện tại Sora chỉ có thể tạo video dài tối đa một phút, hạn chế việc sử dụng nó trong các tình huống ứng dụng cần hiển thị nội dung dài hơn.
Trên đây là một số chi tiết liên quan đến Sora, các độc giả quan tâm có thể tìm hiểu thêm thông tin trong bản gốc của bài nghiên cứu trên tạp chí Arxiv
BÀI MỚI ĐANG THẢO LUẬN