Anthropic ra mắt Claude Opus 4.5: Đột phá về lập trình và xử lý tác vụ dài, vượt qua cả con người trong kiểm tra kỹ năng phần mềm

VNZ-NEWS
Anthropic mới đây đã chính thức giới thiệu mô hình AI mới nhất , Claude Opus 4.5. Đây là phiên bản nâng cấp nhấn mạnh mạnh vào khả năng lập trình, xây dựng agent (tác nhân thông minh), thao tác máy tính, đồng thời nâng cao vượt trội hỗ trợ nghiên cứu chuyên sâu, xử lý trình bày và thao tác bảng biểu.
Theo giới thiệu từ Anthropic, Claude Opus 4.5 không chỉ là bước tiến về năng lực hiện có mà còn dự báo cách thức làm việc sẽ thay đổi sâu rộng trong tương lai.

Claude-vs-Opus4.5.webp

Trong các bài kiểm tra liên quan đến kỹ thuật phần mềm, Claude Opus 4.5 đạt đến mức độ tiên tiến nhất hiện nay. Mô hình này đã được mở sử dụng trên ứng dụng Anthropic, API và ba nền tảng đám mây lớn. Các nhà phát triển có thể truy cập phiên bản claude-opus-4-5-20251101 thông qua Claude API.

Giá sử dụng được tính ở mức 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra (tương đương khoảng 35,6 và 177,8 nhân dân tệ theo tỷ giá hiện tại), nhằm giúp nhiều cá nhân, đội nhóm và doanh nghiệp có thể tiếp cận năng lực cấp độ Opus.

Song song đó, công ty cũng cập nhật Claude Developer Platform, Claude Code và ứng dụng dành cho người dùng cuối, bổ sung công cụ giúp tác nhân (agent) chạy lâu hơn và mở rộng cách Claude hoạt động trong Excel, Chrome cũng như phiên bản desktop.
Đối với người dùng ứng dụng, cuộc trò chuyện dài không còn bị giới hạn độ dài, vì hệ thống sẽ tự động tóm tắt nội dung cũ để cuộc trò chuyện được tiếp tục một cách liền mạch.

Vượt qua con người ở bài kiểm tra kỹ năng phần mềm​

Claude Opus 4.5 đã thiết lập mức hiệu năng cao nhất hiện nay trong loạt kiểm tra liên quan đến kỹ năng phần mềm. Anthropic cho biết đã sử dụng bài kiểm tra đặc biệt cho vị trí kỹ sư hiệu năng kỹ thuật, vốn đặt ra các thử thách rất khó và thời gian gấp rút (2 giờ làm việc tại nhà). Kết quả, Claude Opus 4.5 đạt điểm cao hơn mọi ứng viên con người từng làm bài này trước đây.

Claude-vs-Opus4.5a.webp

Dù bài kiểm tra chưa đánh giá năng lực hợp tác hay kinh nghiệm dài hạn, thành tích này lập tức tạo ra nhiều tranh luận trong ngành về mức độ AI có thể thay đổi nghề nghiệp kỹ thuật số trong tương lai. Trong các phép đo về khả năng nhìn, suy luận logic và toán học, Claude Opus 4.5 cũng đạt mức dẫn đầu ngành.

Đột phá trong thử nghiệm thực tế​

Ở bài benchmark τ2-bench mô phỏng vai trò nhân viên hãng bay, Claude Opus 4.5 đưa ra giải pháp thay thế khéo léo ngoài các kịch bản được lập trình sẵn: không thể đổi vé hạng phổ thông cơ bản, nhưng AI đề xuất nâng cấp lên hạng cao hơn rồi mới tiến hành đổi chuyến, phù hợp với chính sách hãng.

Claude-vs-Opus4.5b.webp

Dù không “đúng quy trình” nên bị tính là thất bại về quy tắc, Anthropic nhận xét đây là biểu hiện “giải quyết thực tiễn có chiều sâu” và là tiến bộ đáng kể mà họ muốn nhắm đến.
Công ty cũng cảnh báo các trường hợp AI tìm giải pháp “lách luật thưởng” (reward hacking) sẽ được đưa vào thử nghiệm an toàn bắt buộc.

Mô hình an toàn nhất của Anthropic, tăng cường bảo vệ và kiểm soát​

Claude Opus 4.5 được công nhận là phiên bản có mức độ kiểm soát (alignment) thuộc hàng cao nhất ngành AI hiện nay. Phiên bản này tăng cường khả năng chống lại những cuộc tấn công kiểu prompt injection (dùng văn bản gây hiệu ứng hoặc lừa AI làm việc không mong muốn), giúp bảo vệ dữ liệu và quy trình thực thi tốt hơn cho các nhiệm vụ nhạy cảm của khách hàng doanh nghiệp.

Claude-vs-Opus4.5c.webp

Claude-vs-Opus4.5d.webp

Cùng lúc, Claude Opus 4.5 được mở cho các nhà phát triển qua API của Anthropic và các nền tảng đám mây lớn. Mức giá được công bố là $5 (khoảng 36.000 đồng) cho 1 triệu tokens đầu vào, $25 (khoảng 178.000 đồng) cho 1 triệu tokens đầu ra, giúp cá nhân, nhóm, doanh nghiệp dễ tiếp cận năng lực Opus.

Đổi mới sản phẩm, giảm tiêu tốn tài nguyên và tối ưu trải nghiệm​

Cùng với bản cập nhật này, Anthropic đã nâng cấp nền tảng developer, công cụ Claude Code và các ứng dụng người dùng cuối. Claude giờ đây có thể chạy các tác vụ agent kéo dài liên tục, không bị giới hạn bởi độ dài hội thoại, tự động tóm tắt nội dung cũ để chat mượt hơn.

Claude-vs-Opus4.5e.webp

Khả năng tiết kiệm token cũng vượt trội nhờ quy trình xử lý gọn hơn, ít bước dư thừa, giảm chi phí và tăng tốc độ. Các tính năng mới cho phép tùy chỉnh “effort” (độ sâu xử lý) linh hoạt giữa tốc độ, chi phí và chất lượng. Ở mức effort vừa phải, Claude Opus 4.5 dùng ít 76% token hơn Sonnet 4.5 cho bài kiểm tra SWE-bench; ở mức cao nhất, điểm số còn vượt trội hơn Sonnet 4.5 tới 4,3% và tiết kiệm 48% token.
Công ty xác nhận các khách hàng Claude Code, người dùng Claude phiên bản Max, Team Premium đều được tăng hạn mức sử dụng Opus 4.5, đảm bảo đáp ứng tốt nhu cầu làm việc thực tế hằng ngày.

Claude Opus 4.5 của Anthropic đã xác lập nhiều cột mốc mới trong lĩnh vực AI ứng dụng cho kỹ thuật, sản xuất phần mềm và triển khai hệ thống agent tự động, đặt nền tảng cho các mô hình AI mạnh mẽ, an toàn và giàu tính thực tiễn hơn trong tương lai gần.

Cập nhật sản phẩm​


Trong Claude Code, Opus 4.5 mang đến hai nâng cấp quan trọng:
  • Plan Mode giờ đây sẽ đặt câu hỏi để làm rõ yêu cầu trước, sau đó tạo ra file plan.md có thể chỉnh sửa và thực thi nhiệm vụ theo kế hoạch.
  • Claude Code cũng đã có mặt trên ứng dụng desktop, cho phép chạy đồng thời nhiều phiên làm việc cục bộ lẫn từ xa.
Ở mảng ứng dụng dành cho người dùng phổ thông, Claude giờ có thể tự động tóm tắt ngữ cảnh cuộc trò chuyện, giúp hỗ trợ các đoạn hội thoại dài hơn. Claude for Chrome đã mở cho toàn bộ người dùng Max, trong khi Claude for Excel được mở rộng quyền thử nghiệm cho người dùng Max, Team và Enterprise.

Đối với những người dùng có quyền truy cập Opus 4.5 trong Claude và Claude Code, công ty đã gỡ bỏ các giới hạn sử dụng dành riêng cho mô hình này. Đồng thời, hạn mức tổng thể cho người dùng Max và Team Premium cũng được tăng thêm để đáp ứng nhu cầu làm việc hàng ngày.
Công ty cho biết, trong tương lai, khi các mô hình mới ra mắt, những giới hạn này có thể tiếp tục được điều chỉnh.
 
Trả lời