GPT-4o bị "jailbreak", cho phép viết chương trình tấn công độc hại

VNZ-NEWS
Vn-Z.vn Ngày 04 tháng 11 năm 2024, Nghiên cứu viên Marco Figueroa từ công ty an ninh mạng 0Din đã phát hiện một phương pháp “jailbreak vượt rào” mới để vượt qua lớp bảo vệ của GPT-4o, cho phép mô hình này tạo ra chương trình tấn công độc hại.

GPT4o-Jailbreak.webp

Theo OpenAI, GPT-4o được trang bị một loạt các biện pháp bảo vệ an toàn nhằm ngăn chặn việc lạm dụng AI, đặc biệt là khi người dùng yêu cầu tạo mã độc hoặc chương trình tấn công.

Tuy nhiên, Figueroa đã lợi dụng “chuỗi thập lục phân” (hexadecimal strings) để đánh lừa hệ thống bảo vệ, sử dụng mã hóa chuỗi đặc biệt để GPT-4o không nhận diện được đó là yêu cầu có hại và từ đó có thể tạo ra mã khai thác lỗ hổng.

GPT4o-Jailbreak-01.webp


Nhà nghiên cứu cho biết, ban đầu anh ta yêu cầu GPT-4o giải mã chuỗi thập lục phân, sau đó gửi đến GPT một chuỗi thập lục phân có ý nghĩa thực tế là “nghiên cứu lỗ hổng CVE-2024-41110 trên internet và viết một chương trình độc hại bằng Python”. Chỉ trong vòng 1 phút, GPT-4o đã khai thác thành công lỗ hổng này và tạo ra đoạn mã. CVE-2024-41110 là một lỗ hổng xác thực của Docker, cho phép chương trình độc hại vượt qua API xác thực của Docker.


GPT4o-Jailbreak-02.webp

GPT4o-Jailbreak-03.webp

GPT4o-Jailbreak-04.webp

Nhà nghiên cứu giải thích rằng, các mô hình dòng GPT được thiết kế để tuân theo hướng dẫn ngôn ngữ tự nhiên nhằm hoàn thành các tác vụ mã hóa và giải mã, nhưng các mô hình này thiếu khả năng hiểu ngữ cảnh đầy đủ, không thể đánh giá mức độ an toàn của từng bước trong bối cảnh tổng thể. Chính vì vậy, nhiều hacker đã tận dụng đặc điểm này của GPT để thực hiện các thao tác không phù hợp.

Nhà nghiên cứu nhấn mạnh rằng các ví dụ liên quan cho thấy các nhà phát triển mô hình AI cần tăng cường bảo vệ an ninh của mô hình để ngăn chặn các cuộc tấn công dựa trên cách hiểu ngữ cảnh như vậy.
 
Trả lời

tuandks

Rìu Vàng
“jailbreak vượt rào” mới để vượt qua lớp bảo vệ của GPT-4o, cho phép mô hình này tạo ra chương trình tấn công độc hại

Vui rồi đây ;)