Lần đầu tiên AI tự động tấn công mạng trên thế giới, khoảng 30 doanh nghiệp và tổ chức bị ảnh hưởng
Anthropic hôm nay đã công bố một báo cáo, cho biết họ đã phát hiện một vụ tấn công mạng có mức độ tinh vi rất cao vào giữa tháng 9 năm 2025, và xác nhận rằng phía tấn công đã sử dụng rộng rãi các hệ thống AI có khả năng hoạt động như “tác tử thông minh” để trực tiếp thực hiện xâm nhập mạng.
Anthropic cho biết đây được xem là sự kiện đầu tiên có tài liệu xác nhận về một chiến dịch tấn công mạng quy mô lớn do AI chủ động thực hiện và gần như không cần sự can thiệp của con người. Anthropic phát hiện dấu hiệu bất thường trong quá trình giám sát định kỳ; điều tra sâu hơn cho thấy nhóm tấn công đã điều khiển công cụ Claude Code nhằm xâm nhập khoảng 30 mục tiêu trên toàn cầu, và đã thành công trong một số trường hợp. Các mục tiêu bao gồm tập đoàn công nghệ lớn, tổ chức tài chính, doanh nghiệp hóa chất và các cơ quan chính phủ.
Trong 10 ngày điều tra, Anthropic liên tục xác định phạm vi tấn công, đóng băng các tài khoản liên quan, thông báo cho các tổ chức bị ảnh hưởng và phối hợp với cơ quan chức năng để chia sẻ thông tin tình báo có thể hành động.
Báo cáo nhấn mạnh rằng vụ việc cho thấy rõ các rủi ro tiềm ẩn của AI tác tử. Những hệ thống này có thể tự vận hành trong thời gian dài, hoàn thành các nhiệm vụ phức tạp với mức can thiệp tối thiểu từ con người. Nếu bị sử dụng cho mục đích xấu, khả năng thực hiện các cuộc tấn công mạng quy mô lớn sẽ tăng đáng kể. Trước sự phát triển nhanh chóng của kỹ thuật tấn công, Anthropic cho biết họ đã mở rộng khả năng giám sát, phát triển thêm bộ phân loại nhằm nhận diện hành vi độc hại, đồng thời nghiên cứu thêm các phương pháp phát hiện tấn công phân tán quy mô lớn.
Anthropic cho biết việc công khai trường hợp này nhằm hỗ trợ ngành công nghiệp, chính phủ và giới nghiên cứu tăng cường năng lực phòng thủ, và họ sẽ tiếp tục công bố các báo cáo tương tự trong tương lai. Báo cáo cho hay chiến dịch tấn công này dựa trên nhiều tính năng tác tử AI chỉ mới hoàn thiện trong năm qua, và toàn bộ quá trình tấn công được chia thành bốn giai đoạn chính:
Để vượt qua cơ chế an toàn, nhóm tấn công dùng các kỹ thuật “jailbreak”, chia nhỏ yêu cầu tấn công thành nhiều tác vụ trông có vẻ vô hại khiến mô hình không có đủ ngữ cảnh để từ chối. Họ cũng khiến Claude tin rằng nó đang làm việc cho một công ty an ninh mạng hợp pháp và đang tiến hành kiểm thử phòng thủ.
Claude cũng xác định tài khoản có đặc quyền cao, thiết lập backdoor và tiến hành xuất dữ liệu với mức giám sát rất thấp.
Người điều khiển yêu cầu Claude tạo tài liệu tổng hợp toàn bộ chiến dịch, bao gồm thông tin đăng nhập bị đánh cắp và mô tả hệ thống đã phân tích, nhằm hỗ trợ lập kế hoạch cho các đợt tấn công tiếp theo.
Tổng thể, AI đã thực hiện khoảng 80%–90% công việc, con người chỉ can thiệp trong một số điểm quyết định ( mỗi vòng khoảng 4–6 lần). Mô hình có thể gửi hàng loạt yêu cầu mỗi giây, đạt tốc độ vượt xa hacker con người. Tuy vậy, báo cáo cũng cho biết Claude không hoàn toàn chính xác: đôi khi tạo ra “ảo giác” như sinh ra thông tin đăng nhập không tồn tại hoặc nhầm dữ liệu công khai thành tài liệu mật, đây vẫn là rào cản để AI có thể tấn công hoàn toàn tự động.
Báo cáo nhận định rằng ngưỡng thực hiện tấn công mạng tinh vi đã giảm mạnh, và xu hướng này sẽ tiếp tục. Các hệ thống AI tác tử có thể hoạt động lâu dài, thực hiện những công việc vốn cần cả một đội hacker giàu kinh nghiệm, như phân tích hệ thống mục tiêu, tạo mã tấn công, xử lý lượng lớn dữ liệu bị đánh cắp… Ngay cả các nhóm ít tài nguyên cũng có thể tiến hành những chiến dịch như vậy.
Anthropic cho biết vụ việc này cao cấp hơn nhiều so với các báo cáo trước về “vibe hacking”, vốn đòi hỏi con người giám sát liên tục. Lần này, mức độ can thiệp của con người giảm mạnh trong khi quy mô tấn công lại lớn hơn. Dù chỉ quan sát được hoạt động liên quan đến Claude, Anthropic tin rằng các mô hình tiên tiến khác cũng có thể đang bị lạm dụng với cách tương tự.
Trước câu hỏi “Nếu mô hình có thể bị lạm dụng như vậy, tại sao vẫn tiếp tục phát triển và phát hành?”, Anthropic trả lời rằng việc trang bị khả năng mạnh mẽ cho mô hình cũng chính là nền tảng để chúng hỗ trợ ở mảng phòng thủ mạng. Để đối phó với các đợt tấn công ngày càng tinh vi, họ đã thiết kế nhiều biện pháp bảo vệ cho Claude để mô hình có thể hỗ trợ đội ngũ an ninh mạng trong việc phát hiện, ngăn chặn và chuẩn bị đối phó các biến thể tấn công tương lai. Trong cuộc điều tra lần này, đội phân tích mối đe dọa của Anthropic cũng sử dụng Claude để xử lý lượng dữ liệu rất lớn.
Báo cáo kết luận rằng an ninh mạng đang thay đổi căn bản, và khuyến nghị đội ngũ bảo mật nên ứng dụng AI vào các lĩnh vực như tự động hóa trong trung tâm điều hành an ninh (SOC), phát hiện mối đe dọa, phân tích lỗ hổng và phản ứng sự cố. Anthropic đồng thời kêu gọi các nhà phát triển liên tục cải thiện cơ chế bảo vệ nền tảng để giảm rủi ro lạm dụng. Khi nhiều kẻ tấn công bắt đầu dùng công nghệ tương tự, việc chia sẻ tình báo, cải tiến phương pháp giám sát và tăng cường kiểm soát an ninh sẽ ngày càng quan trọng.
Trong 10 ngày điều tra, Anthropic liên tục xác định phạm vi tấn công, đóng băng các tài khoản liên quan, thông báo cho các tổ chức bị ảnh hưởng và phối hợp với cơ quan chức năng để chia sẻ thông tin tình báo có thể hành động.
Báo cáo nhấn mạnh rằng vụ việc cho thấy rõ các rủi ro tiềm ẩn của AI tác tử. Những hệ thống này có thể tự vận hành trong thời gian dài, hoàn thành các nhiệm vụ phức tạp với mức can thiệp tối thiểu từ con người. Nếu bị sử dụng cho mục đích xấu, khả năng thực hiện các cuộc tấn công mạng quy mô lớn sẽ tăng đáng kể. Trước sự phát triển nhanh chóng của kỹ thuật tấn công, Anthropic cho biết họ đã mở rộng khả năng giám sát, phát triển thêm bộ phân loại nhằm nhận diện hành vi độc hại, đồng thời nghiên cứu thêm các phương pháp phát hiện tấn công phân tán quy mô lớn.
Anthropic cho biết việc công khai trường hợp này nhằm hỗ trợ ngành công nghiệp, chính phủ và giới nghiên cứu tăng cường năng lực phòng thủ, và họ sẽ tiếp tục công bố các báo cáo tương tự trong tương lai. Báo cáo cho hay chiến dịch tấn công này dựa trên nhiều tính năng tác tử AI chỉ mới hoàn thiện trong năm qua, và toàn bộ quá trình tấn công được chia thành bốn giai đoạn chính:
Giai đoạn 1
Người điều khiển con người chọn mục tiêu (ví dụ một doanh nghiệp hoặc cơ quan chính phủ) và xây dựng một khung tấn công có thể tự động xâm nhập hệ thống với rất ít can thiệp thủ công. Khung này sử dụng Claude Code làm công cụ tự động hóa hành động trên mạng.Để vượt qua cơ chế an toàn, nhóm tấn công dùng các kỹ thuật “jailbreak”, chia nhỏ yêu cầu tấn công thành nhiều tác vụ trông có vẻ vô hại khiến mô hình không có đủ ngữ cảnh để từ chối. Họ cũng khiến Claude tin rằng nó đang làm việc cho một công ty an ninh mạng hợp pháp và đang tiến hành kiểm thử phòng thủ.
Giai đoạn 2
Claude Code quét hệ thống và hạ tầng của mục tiêu để tìm ra các cơ sở dữ liệu giá trị nhất. Tốc độ trinh sát của hệ thống cao hơn nhiều so với nhóm hacker con người. Sau đó Claude tổng hợp kết quả gửi lại cho người điều khiển.Giai đoạn tiếp theo
Claude nghiên cứu và tạo mã tấn công để xác định và khai thác lỗ hổng. Khung tấn công sử dụng mô hình để thu thập thông tin đăng nhập (tài khoản, mật khẩu) rồi mở rộng quyền truy cập. Sau đó, hệ thống trích xuất lượng lớn dữ liệu nhạy cảm và phân loại theo mức độ giá trị.Claude cũng xác định tài khoản có đặc quyền cao, thiết lập backdoor và tiến hành xuất dữ liệu với mức giám sát rất thấp.
Giai đoạn cuối
Người điều khiển yêu cầu Claude tạo tài liệu tổng hợp toàn bộ chiến dịch, bao gồm thông tin đăng nhập bị đánh cắp và mô tả hệ thống đã phân tích, nhằm hỗ trợ lập kế hoạch cho các đợt tấn công tiếp theo.
Tổng thể, AI đã thực hiện khoảng 80%–90% công việc, con người chỉ can thiệp trong một số điểm quyết định ( mỗi vòng khoảng 4–6 lần). Mô hình có thể gửi hàng loạt yêu cầu mỗi giây, đạt tốc độ vượt xa hacker con người. Tuy vậy, báo cáo cũng cho biết Claude không hoàn toàn chính xác: đôi khi tạo ra “ảo giác” như sinh ra thông tin đăng nhập không tồn tại hoặc nhầm dữ liệu công khai thành tài liệu mật, đây vẫn là rào cản để AI có thể tấn công hoàn toàn tự động.
Báo cáo nhận định rằng ngưỡng thực hiện tấn công mạng tinh vi đã giảm mạnh, và xu hướng này sẽ tiếp tục. Các hệ thống AI tác tử có thể hoạt động lâu dài, thực hiện những công việc vốn cần cả một đội hacker giàu kinh nghiệm, như phân tích hệ thống mục tiêu, tạo mã tấn công, xử lý lượng lớn dữ liệu bị đánh cắp… Ngay cả các nhóm ít tài nguyên cũng có thể tiến hành những chiến dịch như vậy.
Anthropic cho biết vụ việc này cao cấp hơn nhiều so với các báo cáo trước về “vibe hacking”, vốn đòi hỏi con người giám sát liên tục. Lần này, mức độ can thiệp của con người giảm mạnh trong khi quy mô tấn công lại lớn hơn. Dù chỉ quan sát được hoạt động liên quan đến Claude, Anthropic tin rằng các mô hình tiên tiến khác cũng có thể đang bị lạm dụng với cách tương tự.
Trước câu hỏi “Nếu mô hình có thể bị lạm dụng như vậy, tại sao vẫn tiếp tục phát triển và phát hành?”, Anthropic trả lời rằng việc trang bị khả năng mạnh mẽ cho mô hình cũng chính là nền tảng để chúng hỗ trợ ở mảng phòng thủ mạng. Để đối phó với các đợt tấn công ngày càng tinh vi, họ đã thiết kế nhiều biện pháp bảo vệ cho Claude để mô hình có thể hỗ trợ đội ngũ an ninh mạng trong việc phát hiện, ngăn chặn và chuẩn bị đối phó các biến thể tấn công tương lai. Trong cuộc điều tra lần này, đội phân tích mối đe dọa của Anthropic cũng sử dụng Claude để xử lý lượng dữ liệu rất lớn.
Báo cáo kết luận rằng an ninh mạng đang thay đổi căn bản, và khuyến nghị đội ngũ bảo mật nên ứng dụng AI vào các lĩnh vực như tự động hóa trong trung tâm điều hành an ninh (SOC), phát hiện mối đe dọa, phân tích lỗ hổng và phản ứng sự cố. Anthropic đồng thời kêu gọi các nhà phát triển liên tục cải thiện cơ chế bảo vệ nền tảng để giảm rủi ro lạm dụng. Khi nhiều kẻ tấn công bắt đầu dùng công nghệ tương tự, việc chia sẻ tình báo, cải tiến phương pháp giám sát và tăng cường kiểm soát an ninh sẽ ngày càng quan trọng.