
OpenAI đã công bố Operator, một tác nhân AI mới có thể duyệt web và tự thực hiện các tác vụ. Operator không hẳn chỉ là một chatbot, mà nó thực sự có thể điều hướng các trang web, nhấp vào nút, điền vào biểu mẫu và tự hoàn thành các tác vụ.
Khi bạn giao cho Operator một nhiệm vụ, nó sẽ chia nhỏ nhiệm vụ thành các bước nhỏ hơn. Một trong những ví dụ mà OpenAI đã trình bày trong buổi phát trực tiếp của mình là khi Operator được yêu cầu đặt hàng tạp hóa từ Instacart sau khi đưa cho anh ta một bức ảnh về danh sách mua sắm viết tay. Operator đã khởi chạy một phiên bản trình duyệt trên đám mây và có thể mở trang web của Instacart, tìm kiếm các mặt hàng riêng lẻ và thêm chúng vào giỏ hàng, thậm chí là thực hiện thanh toán (mặc dù vẫn cần xác nhận từ người dùng ở nhiều bước khác nhau trước khi thực hiện bất kỳ hành động không thể đảo ngược nào trên trang web).
Người vận hành sử dụng mô hình Computer-Using Agent (CUA) kết hợp khả năng thị giác của GPT 4o với lý luận nâng cao thông qua học tăng cường. Mô hình được thiết kế riêng để tương tác với giao diện người dùng đồ họa (GUI) về cơ bản cho phép AI "xem" các trang web thông qua ảnh chụp màn hình và tương tác với chúng bằng các hành động của chuột và bàn phím.
Mô hình thậm chí có thể tự sửa khi gặp phải thách thức và được đào tạo để trao lại quyền kiểm soát cho người dùng khi cần, để đảm bảo nó không bị mất kiểm soát và bắt đầu thực hiện mọi thứ một cách tự động. Điều này đặc biệt hữu ích với các tác vụ nhạy cảm như xử lý thanh toán hoặc thông tin nhạy cảm khác.
Hiện tại, Operator là bản xem trước nghiên cứu và chỉ khả dụng cho người dùng ChatGPT Pro tại Hoa Kỳ, mặc dù OpenAI đã hứa rằng nó sẽ đến các khu vực khác trong những tháng tới. Người dùng ở khu vực Liên minh Châu Âu có thể phải đợi thêm một chút do các yêu cầu tuân thủ nghiêm ngặt hơn.
Bạn có thể đọc thông báo đầy đủ của OpenAI về Operator bằng cách nhấp vào đây.
Theo Neowin.