Microsoft GitHub ra mắt Rubber Duck , AI kiểm tra chéo đa mô hình: Claude + GPT-5.4 tăng hiệu suất tới 75%

VNZ-TECHS
Microsoft GitHub vừa công bố một tính năng thử nghiệm mới cho Copilot CLI mang tên Rubber Duck, cho phép kiểm tra chéo giữa nhiều mô hình AI khác nhau. Cụ thể, khi kết hợp Claude Sonnet 4.6 với GPT-5.4, hệ thống có thể cải thiện hiệu suất lên tới gần 75%.

rubber-Dusk-Copilot-CLI.webp

Theo giới thiệu, trong quá trình lập kế hoạch mã nguồn, các sai sót ban đầu của AI thường dễ bị tích lũy và lan rộng. Việc một mô hình tự kiểm tra chính nó cũng bị hạn chế bởi những thiên lệch và điểm mù trong quá trình huấn luyện. Rubber Duck được thiết kế để giải quyết vấn đề này bằng cách đưa vào một mô hình khác làm “người đánh giá độc lập”, giúp phát hiện lỗi từ góc nhìn khác.

Cơ chế hoạt động dựa trên chiến lược kết hợp đa mô hình: khi người dùng chọn Claude làm mô hình chính, hệ thống sẽ gọi GPT-5.4 để thực hiện kiểm tra. Nhiệm vụ của mô hình thứ hai là rà soát toàn bộ quá trình, đưa ra danh sách các vấn đề quan trọng như chi tiết bị bỏ sót, giả định cần xem xét lại hoặc các trường hợp biên dễ gây lỗi.

Trong bài kiểm tra SWE-Bench Pro, kết quả cho thấy khi sử dụng riêng Claude Sonnet 4.6 và Opus 4.6 có sự chênh lệch đáng kể về hiệu năng. Tuy nhiên, khi Sonnet 4.6 kết hợp với Rubber Duck, khoảng cách này được thu hẹp tới 74,7%.

Đối với các tác vụ phức tạp liên quan đến hơn 3 tệp hoặc trên 70 bước xử lý, hệ thống đạt điểm số cao hơn 3,8% so với mức cơ bản. Thực tế cho thấy tính năng này có thể phát hiện các lỗi sâu như vấn đề kiến trúc, lỗi vòng lặp hoặc xung đột giữa nhiều tệp.

Rubber Duck hỗ trợ ba chế độ hoạt động gồm chủ động, bị động và do người dùng kích hoạt. Hệ thống sẽ tự động kiểm tra ở các giai đoạn quan trọng như sau khi lập kế hoạch, sau khi triển khai phức tạp và sau khi viết kiểm thử. Ngoài ra, người dùng cũng có thể yêu cầu đánh giá bất cứ lúc nào để xem phản hồi chi tiết và cơ sở chỉnh sửa.

Hiện tính năng này đang ở dạng thử nghiệm. Người dùng có thể cài đặt GitHub Copilot CLI, chạy lệnh /experimental, sau đó chọn mô hình Claude và bật quyền truy cập GPT-5.4 để trải nghiệm.

Tham khảo thêm