Vn-Z.vn ngày 5 tháng 12, công cụ AI mới nhất của Nvidia lại khiến cư dân mạng phấn khích.P-picture GAN của Nvidia chỉ đơn giản là một tác phẩm ảnh P dựa trên số không. Nhưng editGAN lại khác , AI này có khả năng sửa đổi hình ảnh với chất lượng cao và độ chính xác cao làm cho phương pháp P-picture dễ dàng hơn bao giờ hết.
Chỉ cần bạn có thể tải hình lên và có bản vẽ phác thảo, bạn có thể dễ dàng sử dụng công cụ P-picture GAN . Không có gì lạ khi một công cụ "ảo diệu" như vậy lại được cư dân mạng ưu ái.
"EditGAN" thậm chí có thể sửa đổi kích thước và hướng của các nan bánh xe:
Tất nhiên, ảnh đời thực với AI mới của Nvidia lại càng không thành vấn đề, chẳng hạn như bạn có kiểm soát hướng của mắt và số lượng tóc:
Bạn cũng có thể sửa đổi kích thước tai cho mèo
Những gì bạn phải làm là tải lên một bức tranh và sau đó một bản phác thảo phân đoạn ngữ nghĩa sẽ được chương trình tạo ra và sửa đổi được áp dụng trực tiếp vào bản phác thảo. EditGAN sẽ chỉ sửa đổi những phần bạn muốn thay đổi, những phần khác để nguyên. Giống như GauGAN2 được Nvidia giới thiệu gần đây, NVIDIA cũng đã phát triển một phần mềm máy tính cho EditGAN:
Nghiên cứu này đã được NeurIPS 2021 chấp nhận
Các nhà nghiên cứu cho biết rằng EditGAN là khung chỉnh sửa hình ảnh dựa trên GAN đầu tiên. EditGAN sử dụng StyleGAN2 để tạo hình ảnh. Quy trình làm việc của StyleGAN2 là lấy một hình ảnh, mã hóa nó vào không gian tiềm ẩn và sử dụng trình tạo để chuyển đổi không gian con mã hóa này thành một hình ảnh khác.
Vấn đề là không gian này đa chiều, chúng ta khó hình dung và cũng khó xác định phần nào c, lúc này không gian con chịu trách nhiệm tái tạo lại đặc điểm nào trong ảnh.
Thông thường, tập dữ liệu được gắn nhãn khổng lồ là cần thiết để biết phần nào của không gian tiềm ẩn trong mô hình kiểm soát các tính năng nào. EditGAN có thể so khớp phân đoạn với hình ảnh chỉ bằng cách học từ một vài ví dụ về tập dữ liệu được gắn nhãn và thực hiện việc chỉnh sửa hình ảnh. EditGAN vẫn giữ được chất lượng hình ảnh hoàn chỉnh trong khi cho ra độ chi tiết vàgiống thật chưa từng có.
EditGAN không chỉ biết phần nào của không gian tiềm ẩn tương ứng với điều khiển mà người dùng muốn, mà còn điều chỉnh chúng tương ứng với bản phác thảo. Bằng cách này, chúng ta có thể dễ dàng sửa đổi hình ảnh bằng cách sửa đổi bản phác thảo.
EditGAN dựa trên DatasetGAN, kết hợp giữa mô hình hóa hình ảnh và phân đoạn ngữ nghĩa. EditGAN nằm ở việc phân phối chung giữa phân đoạn ngôn ngữ cấp pixel và hình ảnh. Đó là nhúng hình ảnh vào không gian ẩn của GAN, tối ưu hóa mã ẩn theo các điều kiện thực thi chỉnh sửa phân đoạn.
Quá trình đào tạo của EditGAN bao gồm sửa đổi phân đoạn ngữ nghĩa và tối ưu hóa mã tiềm năng được chia sẻ để phù hợp với phân đoạn mới trong vùng chỉnh sửa và xuất hiện RGB bên ngoài vùng chỉnh sửa. Gradient tương ứng được sao chép ngược thông qua chia sẻ trình đào tạo.
Để tối ưu hóa nhưng mục khấu hao, tác giả tìm thấy "vector chỉnh sửa" trong không gian tiềm năng để thực hiện chỉnh sửa. Cho phép học bất kỳ số lượng vectơ chỉnh sửa nào và sau đó áp dụng trực tiếp chúng vào các hình ảnh khác với tốc độ thời gian thực.
Nhóm tác giả sử dụng V100 trên cụm GPU nội bộ của NVIDIA để thực hiện đào tạo phân nhánh StyleGAN2, bộ mã hóa và phân đoạn bên dưới, cũng như tối ưu hóa việc nhúng và chỉnh sửa.
Dự án đã sử dụng khoảng 14.000 giờ GPU, trong đó khoảng 3.500 giờ GPU được sử dụng cho thử nghiệm cuối cùng, và phần còn lại được sử dụng để thăm dò và thử nghiệm trong giai đoạn đầu của dự án nghiên cứu. Đối với hoạt động của EditGAN, mất 11,4 (18,9) giây để tối ưu hóa 30 (60) trên V100.
Nvidia cho biết sẽ sớm ra mắt phần mềm mã và công cụ chỉnh sửa.
Chỉ cần bạn có thể tải hình lên và có bản vẽ phác thảo, bạn có thể dễ dàng sử dụng công cụ P-picture GAN . Không có gì lạ khi một công cụ "ảo diệu" như vậy lại được cư dân mạng ưu ái.
"EditGAN" thậm chí có thể sửa đổi kích thước và hướng của các nan bánh xe:
Tất nhiên, ảnh đời thực với AI mới của Nvidia lại càng không thành vấn đề, chẳng hạn như bạn có kiểm soát hướng của mắt và số lượng tóc:
Bạn cũng có thể sửa đổi kích thước tai cho mèo
Những gì bạn phải làm là tải lên một bức tranh và sau đó một bản phác thảo phân đoạn ngữ nghĩa sẽ được chương trình tạo ra và sửa đổi được áp dụng trực tiếp vào bản phác thảo. EditGAN sẽ chỉ sửa đổi những phần bạn muốn thay đổi, những phần khác để nguyên. Giống như GauGAN2 được Nvidia giới thiệu gần đây, NVIDIA cũng đã phát triển một phần mềm máy tính cho EditGAN:
Nghiên cứu này đã được NeurIPS 2021 chấp nhận
Vấn đề là không gian này đa chiều, chúng ta khó hình dung và cũng khó xác định phần nào c, lúc này không gian con chịu trách nhiệm tái tạo lại đặc điểm nào trong ảnh.
Thông thường, tập dữ liệu được gắn nhãn khổng lồ là cần thiết để biết phần nào của không gian tiềm ẩn trong mô hình kiểm soát các tính năng nào. EditGAN có thể so khớp phân đoạn với hình ảnh chỉ bằng cách học từ một vài ví dụ về tập dữ liệu được gắn nhãn và thực hiện việc chỉnh sửa hình ảnh. EditGAN vẫn giữ được chất lượng hình ảnh hoàn chỉnh trong khi cho ra độ chi tiết vàgiống thật chưa từng có.
EditGAN không chỉ biết phần nào của không gian tiềm ẩn tương ứng với điều khiển mà người dùng muốn, mà còn điều chỉnh chúng tương ứng với bản phác thảo. Bằng cách này, chúng ta có thể dễ dàng sửa đổi hình ảnh bằng cách sửa đổi bản phác thảo.
EditGAN dựa trên DatasetGAN, kết hợp giữa mô hình hóa hình ảnh và phân đoạn ngữ nghĩa. EditGAN nằm ở việc phân phối chung giữa phân đoạn ngôn ngữ cấp pixel và hình ảnh. Đó là nhúng hình ảnh vào không gian ẩn của GAN, tối ưu hóa mã ẩn theo các điều kiện thực thi chỉnh sửa phân đoạn.
Quá trình đào tạo của EditGAN bao gồm sửa đổi phân đoạn ngữ nghĩa và tối ưu hóa mã tiềm năng được chia sẻ để phù hợp với phân đoạn mới trong vùng chỉnh sửa và xuất hiện RGB bên ngoài vùng chỉnh sửa. Gradient tương ứng được sao chép ngược thông qua chia sẻ trình đào tạo.
Để tối ưu hóa nhưng mục khấu hao, tác giả tìm thấy "vector chỉnh sửa" trong không gian tiềm năng để thực hiện chỉnh sửa. Cho phép học bất kỳ số lượng vectơ chỉnh sửa nào và sau đó áp dụng trực tiếp chúng vào các hình ảnh khác với tốc độ thời gian thực.
Nhóm tác giả sử dụng V100 trên cụm GPU nội bộ của NVIDIA để thực hiện đào tạo phân nhánh StyleGAN2, bộ mã hóa và phân đoạn bên dưới, cũng như tối ưu hóa việc nhúng và chỉnh sửa.
Dự án đã sử dụng khoảng 14.000 giờ GPU, trong đó khoảng 3.500 giờ GPU được sử dụng cho thử nghiệm cuối cùng, và phần còn lại được sử dụng để thăm dò và thử nghiệm trong giai đoạn đầu của dự án nghiên cứu. Đối với hoạt động của EditGAN, mất 11,4 (18,9) giây để tối ưu hóa 30 (60) trên V100.
Nvidia cho biết sẽ sớm ra mắt phần mềm mã và công cụ chỉnh sửa.