Lý do Cloudflare gặp sự cố làm tê liệt nửa internet toàn cầu | VN-Zoom | Cộng đồng Chia Sẻ Kiến Thức Công Nghệ và Phần Mềm Máy Tính

Speedtest Telegram Discord

VNZoom Beta

🔥 WINXDVD 2025 CHRISTMAS CALENDAR tặng 25 phần mềm bản quyền miễn phí với tổng giá trị 1.095 USD 🔥

Thread starter VNZ-NEWS
Ngày gửi 19/11/25
Nhập từ khóa

cloudflare nguyên nhân sự cố cloudflare

Lý do Cloudflare gặp sự cố làm tê liệt nửa internet toàn cầu

VNZ-NEWS 19/11/25

Cloudflare, công ty cung cấp hạ tầng Internet quan trọng, đã gặp sự cố lớn vào tối qua. Nhiều trang web, bao gồm mạng xã hội X (Twitter) và ChatGPT của OpenAI, đồng loạt gặp trục trặc. Cộng đồng IT đùa rằng: “Lần trước Amazon sập kéo theo nửa Internet, lần này Cloudflare đem nốt nửa còn lại đi.”
Ngay sau đó, Cloudflare đã đăng bài trên blog chính thức, giải thích nguyên nhân sự cố.

Thời điểm và diễn biến sự cố

19:20 ngày 18/11/2025 (giờ Việt Nam)
Mạng Cloudflare bắt đầu gặp lỗi nghiêm trọng khiến lưu lượng cốt lõi không thể truyền tải.
Người dùng Internet khi truy cập các trang sử dụng Cloudflare đều thấy trang lỗi, báo rằng hệ thống nội bộ Cloudflare gặp vấn đề.

Cloudflare khẳng định sự cố không phải do tấn công mạng, cũng không liên quan đến hoạt động độc hại.

Nguyên nhân thực sự của sự cố

Sự cố bắt nguồn từ:

1. Thay đổi quyền trong hệ thống cơ sở dữ liệu Cloudflare

Việc thay đổi quyền này khiến cơ sở dữ liệu tạo ra nhiều mục dữ liệu bất thường và ghi vào “feature file” — tập tin được sử dụng bởi hệ thống quản lý Bot.

2. Kích thước feature file tăng gấp đôi bất ngờ

Tập tin phình to vượt mức giới hạn mà phần mềm xử lý trên toàn mạng có thể đọc được → gây lỗi hàng loạt.

3. Tập tin lỗi lan truyền khắp mạng

Do hệ thống phân phối tự động, tập tin lỗi được đồng bộ tới mọi máy trong mạng Cloudflare.

4. Phần mềm điều hướng lưu lượng bị treo

Phần mềm này cần đọc feature file để phản ứng với các mối đe dọa bot mới. Nhưng khi gặp tập tin quá lớn → phần mềm sập, dẫn đến lỗi 5xx hàng loạt.

Diễn biến xử lý sự cố

Ban đầu Cloudflare nghi ngờ là DDoS siêu lớn, nhưng sau đó nhận ra nguyên nhân thực sự.
Họ lập tức quay về phiên bản feature file cũ.
Đến 22:30 (giờ Việt Nam): lưu lượng cốt lõi cơ bản phục hồi.
Trong vài giờ tiếp theo, Cloudflare tiếp tục giảm tải các phần mạng bị quá tải.
01:06 ngày 19/11 (giờ Việt Nam): toàn bộ hệ thống Cloudflare trở lại bình thường.

Hành vi bất thường trong lỗi

Biểu đồ lỗi 5xx cho thấy:

Trước 19:20, mức lỗi ở mức bình thường.
Sau đó lỗi tăng vọt khi tập tin lỗi được phát tán.
Hệ thống đôi lúc tự phục hồi rồi lại sập, hành vi hiếm gặp ở lỗi nội bộ.

Nguyên nhân là:

Feature file được tạo mỗi 5 phút bởi một truy vấn trong cụm cơ sở dữ liệu ClickHouse đang được nâng cấp dần.
Khi truy vấn chạy ở phần đã nâng cấp → tạo dữ liệu lỗi.
Kết quả: cứ 5 phút một lần, hệ thống có thể nhận file đúng hoặc file lỗi → lỗi liên tục tái diễn.

Sự cố kéo dài đến 22:30 khi file lỗi bị chặn và thay bằng file chuẩn, rồi ép các tác nhân cốt lõi khởi động lại.

Các dịch vụ bị ảnh hưởng

Dịch vụ / Sản phẩm	Mức ảnh hưởng
CDN và dịch vụ bảo mật lõi	Hiển thị trang lỗi HTTP 5xx cho người dùng.
Turnstile	Không thể tải.
Workers KV	Tăng mạnh lỗi 5xx do các gateway gặp lỗi.
Bảng điều khiển (Dashboard)	Giao diện tải được nhưng người dùng không đăng nhập được vì Turnstile lỗi.
Bảo mật Email	Xử lý email không ảnh hưởng, nhưng một nguồn dữ liệu IP reputation bị gián đoạn, giảm độ chính xác phát hiện spam. Một số tác vụ tự động bị lỗi và đã được sửa lại.
Access (Xác thực truy cập ứng dụng)	Đa số người dùng không thể xác thực từ đầu sự cố đến 21:05 khi việc rollback bắt đầu. Phiên đã đăng nhập vẫn hoạt động.
Cập nhật cấu hình Access	Hầu hết thất bại hoặc lan truyền rất chậm. Đến nay đã phục hồi hoàn toàn.