Anthropic ra mắt Fable 5: AI mạnh nhất từ trước đến nay được tự động bị “hạ cấp” từ Mythos

VNZ-TECHS

Mythos 5: Mô hình AI mạnh nhất nhưng sẽ tự động bị “hạ cấp” khi chạm vào các chủ đề nguy hiểm


Chỉ cách đây khoảng hai tháng, Anthropic từng tuyên bố dòng mô hình AI Mythos sở hữu năng lực quá mạnh và tiềm ẩn nhiều rủi ro nên chưa thể phát hành rộng rãi. Tuy nhiên đến nay, công ty đã chính thức mở quyền truy cập cho người dùng thông qua Fable 5 phiên bản thương mại đầu tiên dựa trên nền tảng Mythos.

Điều đáng chú ý là Anthropic không giải quyết bài toán an toàn theo cách mà hầu hết các hãng AI hiện nay đang làm.


Thông thường, khi người dùng đặt câu hỏi liên quan đến nội dung nhạy cảm, chatbot AI sẽ từ chối trả lời bằng những thông báo quen thuộc như “Xin lỗi, tôi không thể hỗ trợ yêu cầu này”.

Với Fable 5, Anthropic lại chọn hướng tiếp cận khác.

Thay vì huấn luyện AI học cách từ chối, công ty xây dựng một hệ thống bộ phân loại độc lập hoạt động phía sau mô hình. Khi phát hiện yêu cầu liên quan đến ba lĩnh vực có rủi ro cao gồm an ninh mạng, sinh học - hóa học và chưng cất mô hình AI (model distillation), hệ thống sẽ tự động chuyển cuộc hội thoại sang Opus 4.8 để xử lý.

Người dùng vẫn nhận được câu trả lời, nhưng thực chất không còn tương tác với Fable 5 nữa. Anthropic gọi đây là cơ chế “downgrade” (hạ cấp mô hình).

Theo hãng, hơn 95% cuộc hội thoại thông thường sẽ không kích hoạt cơ chế này, đồng nghĩa đa số người dùng gần như không nhận thấy sự khác biệt giữa Fable 5 và phiên bản Mythos 5 đầy đủ.


Hàng rào bảo vệ được dựng lên vì AI quá mạnh


Anthropic cho biết đã thực hiện hơn 1.000 giờ kiểm thử bảo mật với sự tham gia của các nhóm chuyên gia bên ngoài nhằm tìm cách vượt qua hệ thống bảo vệ.


Đến thời điểm hiện tại, công ty khẳng định chưa phát hiện phương pháp jailbreak tổng quát nào có thể vô hiệu hóa toàn bộ cơ chế an toàn của Mythos.

Tuy nhiên, chính Anthropic cũng thừa nhận hệ thống hiện tại vẫn còn khá “gắt”. Các bộ phân loại đôi khi có thể đánh dấu nhầm những yêu cầu hoàn toàn hợp lệ từ nhà nghiên cứu sinh học hoặc chuyên gia bảo mật, khiến họ bị chuyển xuống Opus 4.8 dù đang thực hiện công việc bình thường.

Đây được xem là sự đánh đổi mà Anthropic chấp nhận để đưa sản phẩm ra thị trường sớm hơn. Nói cách khác, công ty chấp nhận chặn nhầm còn hơn bỏ sót các trường hợp thực sự nguy hiểm.



Mythos 5 mạnh đến mức nào?

Lý do Anthropic phải xây dựng nhiều lớp bảo vệ như vậy nằm ở chính năng lực của Mythos.

Theo dữ liệu công bố, Stripe đã sử dụng Fable 5 để thực hiện quá trình chuyển đổi trên kho mã nguồn Ruby có quy mô khoảng 50 triệu dòng code. Công việc vốn cần một nhóm kỹ sư thực hiện trong hơn hai tháng đã được hoàn thành chỉ trong một ngày.

Trong bài đánh giá FrontierCode của Cognition, Fable 5 cũng đạt điểm số cao nhất dù chỉ sử dụng mức tài nguyên tính toán trung bình, đồng thời cho hiệu quả token vượt trội so với các thế hệ Claude trước đây.

Khả năng xử lý hình ảnh cũng được nâng cấp đáng kể. Nếu như các phiên bản Claude cũ phải dựa vào nhiều công cụ hỗ trợ mới có thể chơi game Pokémon FireRed, thì Fable 5 có thể hoàn thành trò chơi chỉ với giao diện thị giác cơ bản.



Đáng chú ý hơn, mô hình còn có thể tái tạo lại mã nguồn của một ứng dụng web chỉ từ một vài ảnh chụp màn hình.

Trong lĩnh vực nghiên cứu khoa học, Anthropic cho biết Mythos 5 đã giúp tăng tốc quy trình thiết kế thuốc lên khoảng 10 lần. Thậm chí trong một nghiên cứu hệ gene, mô hình đã hoạt động gần như tự chủ trong hơn một tuần để xây dựng một hệ thống học máy mới, đạt kết quả tốt hơn một nghiên cứu từng được công bố trên tạp chí Science trong khi quy mô chỉ bằng khoảng 1%.

Chính những khả năng này khiến Anthropic đặc biệt thận trọng với các lĩnh vực liên quan đến sinh học và hóa học.

Không phải ai cũng tin Mythos nguy hiểm đến vậy


Bên cạnh những tuyên bố từ Anthropic, một số người tham gia chương trình thử nghiệm doanh nghiệp lại đưa ra góc nhìn khác.

Một số người dùng mạng cho biết Mythos thực sự rất mạnh, đặc biệt trong các tác vụ nghiên cứu bảo mật và an ninh mạng. Theo đánh giá của họ mô hình thậm chí còn vượt trội hơn các phiên bản cao cấp nhất của Opus và GPT-5.5 ở một số bài kiểm tra chuyên sâu.

Tuy nhiên, anh cho rằng Anthropic có phần phóng đại mức độ “nguy hiểm” của sản phẩm.

Trong quá trình sử dụng thực tế, Mythos vẫn gặp khó khăn trước những hệ thống phần mềm có kiến trúc phức tạp dựa trên Bazel. Nhiều tác vụ vẫn cần con người can thiệp trước khi AI có thể tiếp tục xử lý.

Trên mạng người ta cũng tiết lộ Anthropic cung cấp một môi trường sandbox đặc biệt có tên Project Glasswing nhằm ngăn chặn mô hình vượt khỏi giới hạn kiểm soát. Tuy nhiên theo đánh giá cá nhân, một số cơ chế trong hệ thống này vẫn còn khá sơ khai.

Dẫu vậy, Mythos đã giúp phát hiện hàng loạt lỗ hổng bảo mật chưa từng được nhận biết trước đó, buộc doanh nghiệp phải xem xét lại toàn bộ chiến lược an ninh của mình.

Giá cao hơn đáng kể so với GPT-5.5

Về chi phí, Fable 5 và Mythos 5 được định giá 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra.

So với Mythos Preview trước đây, mức giá đã giảm khoảng 60%. Tuy nhiên, nó vẫn đắt gấp đôi Opus 4.8 và cao hơn đáng kể so với GPT-5.5.

Điều đó đồng nghĩa đây vừa là mô hình Claude mạnh nhất từ trước tới nay, vừa là một trong những mô hình đắt đỏ nhất của Anthropic.

Từ nay đến ngày 22/6, người dùng các gói Pro, Max, Team và Enterprise có thể trải nghiệm Fable 5 miễn phí. Sau thời điểm này, việc sử dụng sẽ yêu cầu mua thêm tín dụng tính theo mức tiêu thụ.

Anthropic cho biết khi hạ tầng được mở rộng, Fable 5 sẽ quay trở lại thành một phần của gói thuê bao tiêu chuẩn, nhưng hiện chưa công bố mốc thời gian cụ thể.

Chính sách gây tranh cãi nhất lại liên quan đến dữ liệu


Bên cạnh câu chuyện về sức mạnh AI, một thay đổi khác cũng thu hút sự chú ý của cộng đồng.

Kể từ Fable 5, mọi lưu lượng sử dụng các mô hình thuộc cấp độ Mythos sẽ được Anthropic lưu giữ bắt buộc trong 30 ngày, áp dụng cả trên nền tảng của hãng lẫn các dịch vụ bên thứ ba.

Anthropic khẳng định dữ liệu này không được dùng để huấn luyện mô hình mà chỉ phục vụ mục đích giám sát an toàn, phát hiện các hình thức jailbreak mới hoặc những cuộc tấn công phức tạp diễn ra trong thời gian dài.

Tuy nhiên, với nhiều khách hàng doanh nghiệp từng lựa chọn Anthropic nhờ chính sách không lưu trữ dữ liệu, đây chắc chắn là một thay đổi cần được cân nhắc kỹ lưỡng.

Nói cách khác, cái giá để sử dụng mô hình AI mạnh nhất không chỉ là chi phí cao hơn mà còn là việc dữ liệu sẽ tồn tại lâu hơn trên hệ thống của Anthropic.

Anthropic đang thử một hướng đi mới cho AI tương lai

Nhìn tổng thể, điều đáng chú ý nhất ở Mythos 5 không nằm ở các con số benchmark hay khả năng xử lý vượt trội.

Điểm khác biệt thực sự là cách Anthropic tìm cách biến một công nghệ mà họ từng cho là quá nguy hiểm để công khai thành sản phẩm có thể cung cấp cho hàng triệu người dùng.

Thay vì khóa hoàn toàn công nghệ này sau cánh cửa dành riêng cho một số tổ chức, Anthropic lựa chọn dựng lên các lớp hàng rào bảo vệ, hạ cấp năng lực ở những lĩnh vực nhạy cảm và giám sát hoạt động chặt chẽ hơn.

Liệu những hàng rào đó có đủ chắc chắn hay không?

Lần này, câu trả lời sẽ không còn nằm trong các phòng thí nghiệm hay nhóm thử nghiệm giới hạn nữa, mà sẽ được kiểm chứng bởi toàn bộ cộng đồng người dùng trên toàn thế giới.