NVIDIA AI có thể chuyển văn bản thành hình ảnh minh họa thời gian thực.

VNZ-NEWS
Vn-Z.vn Ngày 24 tháng 11 năm 2021, Nvidia một lần nữa đột phá trí tưởng tượng của mọi người trong việc sử dụng AI biến các nội dung văn bản thành bức ảnh minh họa demo.

Mô hình AI mới nhất GauGAN2 của Nvidia không chỉ có thể tạo ra các bức ảnh phong cảnh thực tế dựa trên các từ trong văn bản mà còn sử dụng các bức ảnh chữ P trong thời gian thực.

Khi kích hoạt AI nếu người dùng nhập đoạn text "sóng vỗ bờ đá" và ngay lập tức cho ra một bức ảnh thực tế:


C8q4Akb.gif


AI này có thể demo cho người dùng mọi thứ! Ví dụ như bạn có thể miêu tả cảnh " ngọn núi có cái gì đó..."


ba7YbL7.gif


Nếunhư bạn muốn núi có núi và nước có nước:


T7oqsSr.gif


Các hiệu ứng trên đều được thực hiện bởicông nghệ AI của Nvidia có tên "GauGAN2", "phiên bản đầy đủ" sẽ còn nhiều chức năng hơn thế nữa.

Từ bản phác thảo đến văn bản, ảnh phong cảnh có thể được demo. GauGAN2 có ba chế độ minh họa bằng hình ảnh hoặc tranh.

- Chế độ đầu tiên là tạo ảnh bằng cách nhập text : Người dùng có thể thử một cụm từ duy nhất, "sunny" và tạo ra hình ảnh sau:

Sunshie-AI-Nivida.gif


Nếu bạn nhập các đoạn text về rừng, AI ngay lập tức thay đổi cảnh sang rừng, biến nó thành cảnh có ánh sáng trong rừng:


sunrise-in-the-forest-AI.gif


Tương tự với "ánh sáng mặt trời trong rừng cây mùa đông", sau khi bước vào mùa đông, rừng cây tươi tốt trước mặt bạn lập tức trở nên "trọc lóc", và chuyển thành cảnh dưới tuyết:


sunrise-in-the-forest-winter-AI.gif

Hiệu ứng này, u1s1 rất tốt.

AI của Nvidia cũng có thể xuất ra các hình ảnh phong cảnh theo các kiểu khác nhau. Ví dụ: nhập từ "núi" và ngay lập tức có núi và núi bạn cũng có thể thay đổi các kiểu khác nhau:

moutain-AI-nvidia.gif


Những ảnh phong cảnh khác nhau được AI có thể tiếp tục tạo ra các chi tiết mới. Khi bạn thêm "bên cạnh dòng sông" sau từ ngọn núi AI sẽtạo ra phong cảnh mới


Moutian-river.gif


- Chế độ thứ 2 , "Hình ảnh loại P", chỉnh sửa trực tiếp một phần của hình ảnh bằng văn bản.


P-AI-nvidia.gif

Chỉ cần khoanh tròn phần bạn muốn thay thế, nhập nội dung bạn muốn và ngay lập tức bạn có thể tạo ra nhiều cảnh quan mới lạ

Hình ảnh bản demo dưới đây do AI Nvidia đưa ra cũng rất lạ, "Lâu đài lơ lửng trên không" giống như vườn treo babilon


lau-dai-babilon.gif


- Chế độ thứ ba là sử dụng graffiti tạo ra các bức ảnh phong cảnh.

Đây là kỹ năng quản lý chính của GauGAN2 thế hệ trước (GauGAN được Nvidia ra mắt vào năm 2019). Nếu bạn muốn cóc "một bầu trời và hai mặt trời" sau đây, bạn có thể thêm một cái khác theo cách thủ công vào hình ảnh được tạo bằng văn bản.


P-AI-nvidia-demo.jpg


Hiệu ứng chồng chéo được sử dụng trong một số trò chơi này khiến cư dân mạng không khỏi lo lắng. Ví dụ: ZDNet đã giả mạo một trò chơi ma thuật, vẽ một khuôn mặt trên background phong cảnh


ZDnet.jpg


GauGAN2 sẽ tạo lại hình ảnh dựa trên hình ảnh hiện có và bạn sẽ có được phong cảnh kỳ diệu mà tôi gọi là "Đảo đầu người":


dao-dau-nguoi.jpg


Cách GauGAN2 tạo ra loạt ảnh phong cảnh này như thế nào ? Sự khác biệt giữa nó với DALL ・ E và CLIP do OpenAI phát hành năm nay là gì?

Vào năm 2019, GauGAN, "tiền thân" của Nvidia GauGAN2, chính thức tung mã nguồn mở. Vào thời điểm đó, GauGAN chỉ có một khả năng duy nhất là trực tiếp biến graffiti thành những bức tranh phong cảnh, giống như phần mềm Canvas.


pUe52Xu.gif


Lúc đó GauGAN đã có thể thay đổi phong cách của bức tranh theo ý muốn, từ ngày và đêm cho đến khí chất xuân, hạ, thu, đông đều có thể “xử lý” khá ổn.

GkcLzzw.gif


Theo Nvidia, GauGAN sử dụng một tiêu chuẩn hóa dựa trên thuật toán thích ứng không gian (SPADE).


dinh-hinh-anh-sang-hinh-anh.jpg


Thuật toán SPADE không chỉ sử dụng các hình ảnh đầu vào ngẫu nhiên mà còn sử dụng hình ảnh được gọi là "bản đồ phân đoạn". Trong hình ảnh phân đoạn, mỗi pixel sẽ được phân loại để tạo ra hình ảnh gần với hình ảnh thực hơn, chế độ này được gọi là "dịch hình ảnh sang hình ảnh".

Nvidia đã nâng cấp GauGAN lên GauGAN2, sử dụng tổng cộng 10 triệu bức ảnh chất lượng cao và được đào tạo trên siêu máy tính Nvidia Selene. Siêu máy tính này đứng thứ hai thế giới trên bảng xếp hạng Green500.
Hầu hết mọi người nhìn thấy GauGAN2 ở cái nhìn đầu tiên, họ có thể nghĩ rằng nó hơi giống với DALL ・ E + CLIP của OpenAI. Đầu năm 2021, OpenAI đã sử dụng hai mô hình DALL ・ E và CLIP để tạo ra "phiên bản đồ họa" GPT-3, cũng có thể tạo ra hình ảnh với các từ khóa.

zvDB2Sv.gif

Tuy nhiên, nội dung được tạo ra bởi haicông nghệ này thực sự khác nhau. Trong khi GauGAN2 tập trung vào việc tạo ảnh phong cảnh, thì DALL ・ E + CLIP tạo ra các đối tượng cụ thể hơn, chẳng hạn như ghế hoặc đồng hồ báo thức. GauGAN2 chú ý nhiều hơn đến mối quan hệ giữa "từ ngữ và hiệu ứng hình ảnh", chẳng hạn như ảnh hưởng của các từ trạng thái mờ như "mùa đông" trên ảnh. Còn DALL · E + CLIP chú ý nhiều hơn thành "văn bản -" Hình ảnh "là một hiệu ứng đối tượng với sự tương ứng rõ ràng.

Theo Nvidia, GauGAN2 khác với các mô hình như "hình ảnh văn bản" và "hình ảnh phân đoạn". GauGAN2 có thể tạo ra nhiều loại ảnh hơn và chất lượng cao hơn. Tuy nhiên, thỉnh thoảng vẫn có một số lỗi

Beach-GauGAN2.jpg

Ví dụ, sau khi từ "bãi biển" (beach) được sử dụng, có những thứ không thể diễn tả bằng ngôn ngữ trong một số bức tranh được tạo ra.

Nvidia nói rằng họ "hoàn toàn không sử dụng bất kỳ bức ảnh chân dung nào" trong khóa đào tạo. (Vì vậy, nó có thể là tình cờ?) Nhưng bằng cách này, " hệ video ma" và "Rick roll" mà cộng đồng mạng mong muốn, GauGAN2 có lẽ không thể thành hiện thực. Tuy nhiên, nó có thể tạo ra những hình ảnh mà chỉ có thể nhìn thấy trong mơ thu hút rất nhiều người dùng thử.


dung-thu-GanGAN2.jpg


Một số người dùng g cảm thấy rằng tính năng tự động tạo phong cảnh này có thể được Adobe sử dụng trong tương lai. Một điểm nữa là GauGAN2 có thể được sử dụng trên trình duyệt, mọi người có thể để lại tin nhắn thảo luận về trải nghiệm của riêng bạn.

Ngay bây giờ bạn đọc có thể trải nghiệm GauGAN2 tại đây


Vn-Z.vn team tổng hợp
 
  • Like
haivu Reactions: haivu
Trả lời

haivu

Administrator
Thành viên BQT
Thời đại của máy ảnh với họa sĩ sắp tàn rồi...