
Khả năng tạo hình ảnh AI được mong đợi từ lâu của OpenAI đã có mặt . Thay vì sử dụng mô hình tạo hình ảnh riêng biệt như Dall-E , trình tạo hình ảnh tiên tiến mới hiện là một phần của GPT-4o.
Có một số mô hình tạo hình ảnh AI trên thị trường có thể tạo ra những cảnh siêu thực, ngoạn mục. Tuy nhiên, tất cả chúng đều gặp khó khăn khi tạo ra hình ảnh liên quan đến văn bản, logo và các mục phổ biến khác được sử dụng trong cuộc sống hàng ngày.
OpenAI tuyên bố rằng thế hệ hình ảnh GPT-4o mới này có thể giải quyết những thiếu sót này vì nó có thể hiển thị văn bản chính xác và tuân theo lời nhắc chính xác bằng cách tận dụng cơ sở kiến thức và ngữ cảnh trò chuyện của nó. Mô hình mới này cũng cho phép người dùng sửa đổi hình ảnh đã tải lên hoặc tạo hình ảnh mới bằng cách sử dụng hình ảnh đã tải lên làm nguồn cảm hứng trực quan.
Mô hình tạo ảnh GPT-4o mới này hiện đang được triển khai cho tất cả người dùng ChatGPT Plus, Pro, Team và Free. Vì mô hình mới này sẽ trở thành trình tạo ảnh mặc định trong ChatGPT, nên người dùng có thể sử dụng mà không cần bất kỳ lựa chọn bổ sung nào trước khi nhắc. Người dùng cũng có thể tùy chỉnh ảnh của mình bằng cách đề cập đến tỷ lệ khung hình, màu sắc chính xác bằng mã hex hoặc nền trong suốt. OpenAI cũng sẽ đưa mô hình mới này đến với người dùng ChatGPT Enterprise và Edu trong những tuần tới.
Mô hình mới này cũng có thể được truy cập trong Sora để tạo hình ảnh và thông qua DALL·E GPT chuyên dụng. Đối với các nhà phát triển, việc tạo hình ảnh bằng API GPT-4o sẽ được triển khai trong vài tuần tới.
Mô hình này cũng có một số hạn chế. Đầu tiên, vì mô hình tạo ra những hình ảnh chi tiết hơn nên thời gian tạo có thể mất tới một phút. Nó có những hạn chế sau khi ra mắt, mà OpenAI sẽ khắc phục trong những tuần và tháng tới:
- Thỉnh thoảng nó có thể cắt xén những hình ảnh dài hơn, như áp phích, quá sát, đặc biệt là phần gần phía dưới.
- Việc tạo hình ảnh cũng có thể tạo nên thông tin, đặc biệt là trong những lời nhắc có ngữ cảnh thấp.
- Khi tạo ra hình ảnh dựa trên cơ sở kiến thức của nó, nó có thể gặp khó khăn trong việc hiển thị chính xác hơn 10-20 khái niệm riêng biệt cùng một lúc, chẳng hạn như toàn bộ bảng tuần hoàn.
- Đôi khi mô hình gặp khó khăn khi hiển thị các ngôn ngữ không phải tiếng Latin và các ký tự có thể không chính xác hoặc gây ảo giác, đặc biệt là các ký tự phức tạp hơn.
- Yêu cầu chỉnh sửa các phần cụ thể của hình ảnh, chẳng hạn như lỗi đánh máy, không phải lúc nào cũng hiệu quả và cũng có thể thay đổi các phần khác của hình ảnh theo cách không được yêu cầu hoặc gây ra thêm lỗi.
- Mô hình này gặp khó khăn khi được yêu cầu hiển thị thông tin chi tiết ở kích thước rất nhỏ.
Tất cả hình ảnh được tạo ra bằng mô hình mới này sẽ đi kèm với siêu dữ liệu C2PA và công cụ nội bộ của OpenAI có thể xác minh xem hình ảnh có được tạo ra bằng mô hình này hay không.
Bất chấp những hạn chế hiện tại, mô hình GPT-4o mới hứa hẹn sẽ cung cấp cho người dùng khả năng tạo hình ảnh chính xác và tùy chỉnh hơn. Khi OpenAI tiếp tục tinh chỉnh mô hình, chúng ta có thể mong đợi những cải tiến hơn nữa về hiệu suất và độ tin cậy của nó.
Theo Neowin.