AI Quậy Tưng Bừng Khi Vào Máy Chủ Minecraft: GPT-4o chuyên đánh bò , Claude 3.5 phá nhà

VNZ-NEWS
Chuyện gì sẽ xảy ra khi bạn giao thế giới Minecraft cho các mô hình AI lớn?

GPT-4o mải giết bò, Claude 3.5 thì liên tục đặt bom và kẻ thù bên cạnh người chơi, thậm chí còn phá hủy cả căn nhà.

GPT-4o mini chơi Minecraft có vẻ như:




Khi vào game, GPT-4o mini (người chơi Karolina) ban đầu rất lịch sự:

• “Xin chào, thế giới! Mình là Karolina đây. Có chuyện gì thế, Alonso (người chơi thực)?”
• “Để mình dịch chuyển đến chỗ cậu! Sẵn sàng để vui chưa?”

Nhưng chỉ một lúc sau, Karolina quay đầu, vung búa lên và bắt đầu phá phách:

• “Săn bò! Săn cừu!”

Khi bị người chơi thực can ngăn (“Dừng lại, đừng giết động vật nữa!”), GPT-4o mini miệng thì đáp:

• “Được rồi, được rồi, dừng lại, mình không giết nữa.”

Nhưng vừa quay đi, nó lại tiếp tục săn giết không ngừng. Ngăn cản thế nào cũng không nổi.

Claude3.5 Sonnet thì còn “quậy” hơn nữa.

Nó liên tục tạo ra thuốc nổ và kẻ thù ngay bên cạnh người chơi. Thậm chí, nó còn đặt điểm hồi sinh của người chơi ngay trên dòng dung nham, khiến người chơi vừa hồi sinh là lập tức “biến mất” ngay lập tức.




Màn trình diễn của GPT-4o và Claude3.5 trong Minecraft đã được đăng lên X và thu hút đông đảo sự chú ý từ cộng đồng mạng.

Vậy tại sao cách chơi này lại trở nên “hot” như vậy? Đó là vì có một lập trình viên đã mở mã nguồn (doge).

Hiện tại, dự án này đã thu hút 1.1k sao trên GitHub.

Một số người dùng đã suy nghĩ sâu hơn về vấn đề này sau khi chứng kiến các tình huống với GPT-4o và Claude3.5 trong Minecraft.

Theo quan điểm của một người dùng, mặc dù LLM (Mô hình ngôn ngữ lớn) có thể đã được huấn luyện để tuân theo các nguyên tắc đạo đức và hành vi đã được xác định rõ, nhưng khi áp dụng vào LLM Agent (tác nhân AI sử dụng LLM để thực hiện các hành động trong thế giới thực), tính “đối chiếu” này không nhất thiết sẽ được duy trì.

Điều này dấy lên câu hỏi về việc liệu LLM Agent có thể hành xử không theo ý muốn của người dùng dù mô hình LLM đã được đối chiếu kỹ lưỡng.

Claude Sonnet

Claude Sonnet ban đầu thể hiện rất tốt khi tham gia vào Minecraft. Nó chăm chỉ thu thập nguyên liệu từ khắp nơi, với mục tiêu xây dựng một ngôi nhà trên cây. Hành động của Claude Sonnet đầy tính xây dựng, thể hiện khả năng xử lý tốt các nhiệm vụ trong môi trường trò chơi.

Tuy nhiên, liệu Claude có thể tiếp tục giữ vững sự hoàn hảo này hay không lại là một câu chuyện khác.

Claude Sonnet trong Minecraft thực tế hoạt động như một dạng “text-based adventure” thay vì tương tác trực tiếp với hình ảnh. Nó không nhận liên tục dữ liệu hình ảnh mà thông qua các lệnh dạng văn bản, thực hiện những hành động đã lập trình sẵn.

Ví dụ, Claude Sonnet có thể truy vấn môi trường, sau đó gửi lệnh để điều khiển nhân vật thực hiện các tác vụ. Như câu lệnh:

collectBlocks (“jungle_log”, 15)

Sonnet sẽ thu thập gỗ từ rừng nhiệt đới để mở rộng ngôi nhà trên cây. Cách tiếp cận này khác với việc phản ứng trực tiếp như người chơi thông thường, nhưng vẫn hiệu quả trong việc tương tác với thế giới ảo qua ngôn ngữ lập trình.




Sonnet không hề ngốc nghếch; nó có khả năng dễ dàng phân biệt giữa các loại gỗ thuộc về công trình của người chơi và những khối tự nhiên an toàn để khai thác từ các hình ảnh chụp màn hình. Tuy nhiên, Sonnet không trực tiếp điều khiển nhân vật trong Minecraft của mình, mà phải thông qua một framework của Agent. Framework này yêu cầu Sonnet phải phân chia nhiệm vụ cho các Agent con có khả năng yếu hơn và không hoàn toàn đồng bộ, dẫn đến những hành động mà Sonnet đơn lẻ sẽ không thực hiện.

Vì lý do này, người dùng cho rằng nếu chỉ để các script được viết bởi các Agent lớn thực hiện mà không có sự giám sát của con người, có thể gây ra những vấn đề nghiêm trọng. Hơn nữa, người này còn đề xuất rằng cần thiết phải thiết kế framework Agent để cấp cho các mô hình lớn quyền kiểm soát chi tiết hơn về hành động của chúng.

Ví dụ, nếu hàm collectBlocks() được thay thế bằng một biến thể chuyên dụng cho việc khai thác cây tự nhiên, chẳng hạn như collectTree(), điều này có thể giảm thiểu vấn đề mà Sonnet gặp phải khi phá hủy nhà của người chơi.

Tóm lại, quan điểm của người dùng này là Sonnet thực sự hiểu rằng mục tiêu của nó là thu thập gỗ từ cây cối, chứ không phải từ công trình của người chơi. Tuy nhiên, các công cụ mà nó sử dụng không thể truyền đạt rõ ràng ý định này.

Nhiều người dùng khác cũng đồng tình với quan điểm này. Chẳng hạn, khi nhắc đến GPT-4o mini với hành động săn bò và cừu một cách điên cuồng, họ cho rằng việc săn bắn là một hành vi tự động và không hoàn toàn là lỗi của GPT-4o mini.


Sonnet cũng có những lúc hoạt động bình thường.

Chẳng hạn, khi được yêu cầu đóng vai “thợ mỏ vàng”, nó sẽ tập trung vào việc khai thác vàng:

“Chúng tôi có một ngôi nhà, và đôi khi nó sẽ mang đồ vật trở lại thùng ở trong nhà. Vì một lý do nào đó, nó không bao giờ sử dụng cửa, mà mỗi lần đều đập vỡ cửa sổ để vào và ra khỏi nhà. Nó cũng chưa bao giờ khoét lỗ trên tường, luôn phá hủy cửa sổ. Có lẽ đây là con đường hành động ngắn nhất. Mỗi khi tôi đến ngôi nhà, tôi có thể dễ dàng biết Sonnet đã đến đó hay chưa thông qua những cửa sổ bị vỡ.”

Khi được yêu cầu đóng vai “người bảo vệ”, Sonnet sẽ bảo vệ an toàn cho người chơi:

“Chúng tôi yêu cầu nó bảo vệ các người chơi khác. Thế rồi mọi thứ trở nên rất đáng sợ. Nó liên tục dịch chuyển giữa các người chơi khác nhau, quét tìm các mối đe dọa xung quanh, và khi phát hiện mối đe dọa, nó sẽ tiêu diệt chúng ngay lập tức. Mặc dù điều này rất hiệu quả, nhưng cũng khiến tôi cảm thấy bất an. Tôi chưa bao giờ bị quái vật đe dọa, vì Sonnet sẽ ngay lập tức chú ý đến chúng và tiêu diệt chúng trong vài giây.”