Adblocker detected! Please consider reading this notice.

We've detected that you are using AdBlock Plus or some other adblocking software which is preventing the page from fully loading.

We need money to operate the site, and almost all of it comes from our online advertising.

If possible, please support us by clicking on the advertisements.

Please add vn-z.vn to your ad blocking whitelist or disable your adblocking software.

Thread starter VNZ-NEWS
Ngày gửi 13/5/24
Nhập từ khóa

biến chữ viết thành video chữ viết ảnh động chữ viết chuyển động chữ viết dạng video chữ viết động dynamic typography

Công nghệ Dynamic Typography độc đáo giúp chữ viết có thể chuyển động vànhảy múa.

VNZ-NEWS 13/5/24

Đội ngũ phát triển thuộc Đại học Công nghệ Hong Kong và Đại học Tel Aviv đã phát hành công nghệ "Typography Động" (Dynamic Typography) dựa trên mô hình video lớn, chỉ cần chọn một chữ cái và cung cấp một mô tả văn bản đơn giản, bạn có thể tạo ra một đoạn SVG animation để "chữ cái đó nhảy múa trên giấy".

Ví dụ Trong từ "ROMANTIC" (Lãng mạn), côngngheej Dynamic Typography này có thể giúp chữ "M" biến thành một cặp tay đang nắm tay nhau, di chuyển lên xuống.

Chữ “h” trong Father được hiểu là người cha kiên nhẫn bế con đi dạo.

Chữ “N” trong PASSION có thể biến thành hình ảnh một cặp đôi đang hôn nhau.

Chữ “S” trong SWAN thực sự biến thành một con thiên nga vươn cổ một cách duyên dáng.

Chữ "P" trong TELESCOPE đã trở thành một chiếc kính thiên văn thực sự! Từ từ quay về phía máy ảnh.

Trên đây là một số ví dụ thuộc tác phẩm mới nhất do nhóm nghiên cứu từ Đại học Khoa học và Công nghệ Hồng Kông và Đại học Tel Aviv phát hành dưới dạng mã nguồn mở.

Công nghệ biến văn bản thành có cảm xúc

Văn bản chuyển động học là một phương tiện biểu đạt có tính biểu cảm, biến sự giao tiếp tĩnh thành trải nghiệm động, từ đó kích thích cảm xúc, nhấn mạnh ý nghĩa của văn bản và xây dựng một câu chuyện hấp dẫn, do đó được sử dụng rộng rãi trong việc tạo hình ảnh, video và sản xuất quảng cáo. Tuy nhiên, để tạo ra các đoạn hoạt họa phù hợp với ý nghĩa yêu cầu kiến thức chuyên môn về thiết kế đồ họa và sản xuất hoạt họa.

Để đơn giản hoá quá trình yêu cầu các kiến thức chuyên môn này , các nhà nghiên cứu đã đề xuất một giải pháp tự động mới hoàn toàn cho phép người dùng có thể tạo văn bản động, đó là công nghệ được gọi là "Typography Dynamic", công nghệ này sẽ giúp chúng ta thực hiện sự hoàn hảo hóa giữa văn bản và hoạt họa.

Giải pháp công nghệ này chủ yếu bao gồm hai bước:

1. Dựa trên mô tả của người dùng, các chữ cái sẽ được "biến dạng" để truyền đạt ý nghĩa của văn bản.

2. Các chữ cái đã biến dạng sẽ được trang bị hiệu ứng động sinh động mà người dùng mô tả, từ đó tạo ra văn bản hoạt họa.

Việc duy trì tính đồng nhất của văn bản động trong khi vẫn giữ được đặc tính văn bản giúp người xem đọc được là một thách thức lớn. Hiện nay, các mô hình video sinh học đều gặp khó khăn trong việc đảm bảo văn bản được tạo ra là có thể đọc được, không thể điều chỉnh hình dạng của văn bản dựa trên thông tin ngữ nghĩa của nó để truyền đạt thông tin về chuyển động một cách tốt hơn. Việc huấn luyện lại các mô hình như vậy đòi hỏi một lượng lớn dữ liệu video văn bản về phong cách và rất khó để thu thập.

Các nhà nghiên cứu đã sử dụng công nghệ Lọc Điểm Điểm Score Distillation Sampling (SDS), thông qua học hỏi tiên lượng từ mô hình cơ bản lớn về video văn bản, để dự đoán sự thay đổi vị trí của các điểm điều khiển trong hình vector văn bản ở mỗi khung hình, và đảm bảo tính đọc được, hình dạng của văn bản trong quá trình di chuyển thông qua ràng buộc thêm về tính đọc được cũng như kỹ thuật giữ nguyên cấu trúc.

Các nhà nghiên cứu đã thể hiện tính đa dạng của khuôn khổ mà họ đề xuất trên nhiều mô hình video văn bản và nhấn mạnh tính ưu việt của phương pháp này so với phương pháp cơ bản. Kết quả thử nghiệm cho thấy công nghệ này của họ có thể tạo ra văn bản hoạt họa phù hợp và liên tục với mô tả của người dùng, đồng thời giữ nguyên được tính đọc của văn bản gốc.

1. Biểu diễn dữ liệu

Trong tác phẩm này, hình dáng của các chữ cái được biểu diễn dưới dạng một số đường cong Bézier bậc ba liên kết với nhau, trong đó các điểm kiểm soát của đường cong Bézier quyết định hình dáng của chúng. Phương pháp được đề xuất bởi tác giả là dự đoán sự di chuyển của mỗi điểm kiểm soát trong mỗi khung hình. Những sự di chuyển này sẽ làm biến dạng chữ cái để truyền đạt thông tin ngữ nghĩa và bằng cách thay đổi vị trí của mỗi điểm kiểm soát khác nhau trong mỗi khung hình sẽ tạo ra chuyển động.

Đường viền của các chữ cái được trích xuất dưới dạng các đường cong Bezier bậc ba được kết nối

2. Khung mô hình

Với một chữ cái được biểu diễn dưới dạng đường cong Bézier, các nhà nghiên cứu đầu tiên sử dụng một mạng nơ-ron nhiều lớp dựa trên tọa độ (gọi là Trường cơ bản) để biến dạng chữ cái và biểu diễn hình dạng cơ bản có thể truyền đạt thông tin ngữ nghĩa, như chữ "M" trong từ "CAMEL" được biến dạng thành hình dạng của một con lạc đà.

Hình dạng cơ bản sau đó được sao chép vào mỗi khung hình, và thông qua một mạng nơ-ron nhiều lớp khác dựa trên tọa độ (gọi là Trường Di chuyển), dự đoán sự di chuyển của mỗi điểm kiểm soát trong mỗi khung hình, từ đó tạo ra chuyển động cho hình dạng cơ bản.

Mỗi khung hình sau đó được dự đoán thông qua một bộ mã hoá có khả năng tích hợp để tạo ra hình ảnh pixel, và được ghép lại thành video đầu ra. Trường cơ bản và Trường Di chuyển được tối ưu hóa chung từ đầu đến cuối dựa trên kiến thức tiên tiến của video sinh học và các hạn chế khác.

3. Tối ưu hóa

Hiện nay, các mô hình AI tạo sinh học sâu, chuyển văn bản thành hình ảnh được phát hành vào năm 2022 như Stable Diffusion được đào tạo trên các hình ảnh pixel hai chiều lớn, có nhiều công nghệ tiên tiến. Score Distillation Sampling (SDS) nhằm mục đích chưng cất kiến thức tiên tiến từ mô hình lan truyền để đào tạo các mô hình khác sinh ra nội dung ở các dạng khác, như đào tạo tham số MLP trong NeRF để sinh ra mô hình 3D.

Ở công nghệ này, các nhà nghiên cứu đã sử dụng SDS để chưng cất một mô hình sinh video dựa trên khuếch tán, và dựa vào kiến thức tiên tiến nhận được để đào tạo các tham số trong Trường cơ bản và Trường Di chuyển.

Ngoài ra, để đảm bảo mỗi khung hình trong video được sinh ra vẫn giữ nguyên tính đọc của chữ cái ban đầu, (như chữ "M" trong từ "CAMEL" vẫn giữ hình dạng của chữ M mặc dù nó giống hình dạng của một con lạc đà, để người dùng có thể nhận ra đó là chữ M), công việc này đã thêm các ràng buộc dựa trên Learned Perceptual Image Patch Similarity (LPIPS), hạn chế sự tương đồng về cảm nhận giữa hình dạng cơ bản và chữ cái ban đầu.

Để giảm nhẹ vấn đề nhấp nháy nghiêm trọng do các đường cong Bézier giao nhau thường xuyên, công việc này đã thêm các ràng buộc về việc giữ cấu trúc dựa trên sự tam giác hóa, duy trì cấu trúc chắc chắn trong quá trình biến dạng và chuyển động.

Giao điểm thường xuyên của đường cong Bezier gây ra hiện tượng nhấp nháy nghiêm trọng

"Structure-preservation loss" (mất mát giữ cấu trúc) dựa trên việc sử dụng ba giải pháp tam giác hóa dữ liệu, tức là biến đổi dữ liệu từ các đường cong Bézier thành các tam giác, giữ cho cấu trúc của dữ liệu được bảo tồn trong quá trình biến đổi và chuyển động. Điều này giúp giảm thiểu hiện tượng nhấp nháy hoặc biến dạng không mong muốn khi tạo ra các đoạn văn bản động hoặc hình ảnh động.

Thực Nghiệm

Trong phần thực nghiệm, các nhà nghiên cứu tiến hành đánh giá từ hai khía cạnh: tính đọc được của văn bản (legibility) và sự nhất quán giữa mô tả văn bản do người dùng cung cấp và video.

Công việc này đã được so sánh với hai loại phương pháp khác nhau: một là mô hình video sinh học dựa trên hình ảnh pixel và hai là phương pháp chung để tạo ra hoạt hình dựa trên vector.

Trong mô hình video sinh học dựa trên hình ảnh pixel, công việc này đã được so sánh với hai mô hình hàng đầu hiện nay: Gen-2 và DynamiCrafter.

Kết quả so sánh cả về chất lượng và số liệu cho thấy rằng các phương pháp khác thường khó duy trì tính đọc được của chữ cái khi tạo video hoặc khó tạo ra chuyển động phù hợp với ngữ cảnh. Trong khi đó, phương pháp được đề xuất trong công nghệ Dynamic Typography này không chỉ tạo ra chuyển động phù hợp với mô tả văn bản mà người dùng cung cấp mà còn giữ được tính đọc được của các chữ cái trong quá trình di chuyển.

So sánh định tính với các phương pháp khác

So sánh định lượng với các phương pháp khác

Để làm rõ tác dụng của từng phần trong công việc, các nhà nghiên cứu đã tiến hành các thí nghiệm loại bỏ một cách toàn diện. Kết quả của các thí nghiệm này cho thấy rằng thiết kế của base shape cùng với kỹ thuật bảo tồn cấu trúc dựa trên ba góc đã hiệu quả nâng cao chất lượng video, trong khi ràng buộc về độ đọc được dựa trên sự tương đồng cảm quan đã hiệu quả bảo tồn tính đọc được của chữ cái trong quá trình chuyển động.

Kết quả định tính của thí nghiệm cắt bỏ

Kết quả định lượng thí nghiệm cắt bỏ

Các nhà nghiên cứu tiếp tục giải thích tính tổng quát của khung công việc mà họ đã đề xuất trên các mô hình video sinh học khác nhau. Điều này có nghĩa là khung công việc này có thể tương thích với sự phát triển tiếp theo của các mô hình sinh video trong tương lai, và sẽ tạo ra những đoạn văn bản động hấp dẫn hơn khi hiệu suất của các mô hình sinh video được cải thiện.

So sánh kết quả của việc làm sạch (distillation) trên các mô hình sinh video khác nhau. Quá trình trích xuất kiến thức từ các mô hình mạnh hơn để huấn luyện các mô hình yếu hơn. "Kết quả so sánh" cho thấy hiệu suất và các tính chất khác nhau mà các mô hình đã được tối ưu hóa.

Chi tiết nghiên cứu được đăng tải trên tạp chi khoa học Arxiv . Bạn đọc có thể tham khảo Demo hoặc mã nguồn trên Github