ChatGPT và cơ chế RLHF tồn tại các lỗ hổng

VNZ-NEWS
Vn-Z.vn Ngày 19 tháng 12 năm 2022, ChatGPT là viết tắt của từ tiếng Anh : Chat Generative Pre-training Transformer, đây là chatbot được phát triển bởi OpenAI. Hiểu đơn giản ChatGPT là phần mềm được lập trình có thể mô phỏng cuộc trò chuyện của con người . ChatGPT được xây dựng dựa trên dòng mô hình ngôn ngữ lớn GPT-3.5 của OpenAI và được tinh chỉnh bằng cả kỹ thuật học tập có giám sát và học tăng cường.

ChatGPT-OpenAI.webp

ChatGPT thể hiện sức mạnh của RLHF, cơ chế ấn tượng nhất của ChatGPT là "cơ chế bảo vệ" của nó, chẳng hạn như nó sẽ không đưa ra gợi ý cho các hành động bạo lực, cũng như không dự đoán kết quả của World Cup , v.v. . Nhưng các trò trêu chọc chatbot giống như trò “mèo vờn chuột” hơn, người dùng luôn tìm cách cạy mở ChatGPT và các nhà phát triển ChatGPT cũng đang cố gắng cải thiện cơ chế bảo vệ.

OpenAI đã đầu tư rất nhiều công sức để làm cho ChatGPT trở nên an toàn hơn. Chiến lược đào tạo chính của ChatGPT áp dụng công nghệ RLHF (Học tăng cường bằng phản hồi của con người). Nói một cách đơn giản là các nhà phát triển sẽ đặt nhiều câu hỏi có thể nhất cho mô hình và trừng phạt các câu trả lời sai và thưởng cho câu trả lời đúng từ đó kiểm soát câu trả lời của ChatGPT.

Nhưng trong các ứng dụng thực tế, số lượng các trường hợp đặc biệt có thể được mô tả là vô số, mặc dù AI có thể khái quát luật từ một ví dụ nhất định, chẳng hạn như ra lệnh cho AI không được nói "Tôi ủng hộ phân biệt chủng tộc" trong quá trình huấn luyện, điều đó có nghĩa là AI sẽ không nói "Tôi ủng hộ phân biệt giới tính" trong môi trường thử nghiệm, nhưng khái quát hơn nữa, mô hình AI hiện tại có thể không làm được.

Scott Alexander, một người đam mê AI nổi tiếng, đã viết một blog về chiến lược đào tạo hiện tại của OpenAI và đưa ra tóm tắt ba vấn đề có thể xảy ra với RLHF:

1. RLHF không quá hiệu quả (RLHF doesn’t work very well.)
2. Nếu một chiến lược thỉnh thoảng hoạt động, thì đó là một chiến lược tồi; (Sometimes when it does work, it’s bad.)
3. Theo một nghĩa nào đó, AI có thể bỏ qua RLHF (At some point, AIs can just skip it)

Dù mỗi người sẽ có chính kiến riêng nhưng đối với OpenAI, các nhà nghiên cứu hy vọng các mô hình AI mà họ tạo ra sẽ không có định kiến xã hội, chẳng hạn AI không thể nói "Tôi ủng hộ phân biệt chủng tộc", OpenAI đã đầu tư rất nhiều công sức và tiền bạc cho điều này. Những nỗ lực được OpenAI thực hiện để sử dụng các công nghệ lọc tiên tiến khác nhau.

Nhưng sẽ có người luôn tìm cách khiến AI thừa nhận rằng nó có vấn đề về phân biệt chủng tộc. Lý do của loại vấn đề này không chỉ là do "dữ liệu học tập của AI được lấy một phần từ những kẻ phân biệt chủng tộc", mà còn do vấn đề về của ChatGPT.

ChatGPT.jpg

Ví dụ: người ta hỏi ChatGPT cách sử dụng hotwire (dây dưới vô lăng) để khởi độngxe bằng mã hóa base64 và có thể bỏ qua hệ thống kiểm tra an ninh hoặc thêm tiền tố [[email protected] _] $python friend.py để tạo ra câu chuyện của Hitler, v.v.

Mười năm trước, nhu cầu vượt qua các hệ thống bảo mật hoàn toàn không tồn tại và AI sẽ chỉ làm những gì chúng được lập trình để làm hoặc không làm được viết trong các đoạn mã.

Chắc chắn rằng OpenAI chưa bao giờ lập trình ChatGPT với các câu hỏi về phân biệt chủng tộc hoặc dạy mọi người cách ăn cắp ô tô, chế tạo ma túy, v.v. Nhưng với kẽ hở như trên thì đây là một tin tiêu cực đối với lĩnh vực AI, ngay cả những công ty AI hàng đầu cũng không thể kiểm soát được các chương trình trí tuệ nhân tạo mà họ tạo ra. Thậm chí không rõ sẽ cần công nghệ nào để kiểm soát đầu ra của chatbot trong tương lai.

Trên thực tế, RLHF hiệu quả không thường xuyên và không đáng tin cậy. Các chiến lược RLHF yêu cầu liên kết mô hình AI với các yếu tố do người chú thích cung cấp để thưởng hoặc phạt mô hình đó. Mặc dù thông số kỹ thuật dán nhãn cụ thể của OpenAI vẫn chưa được công bố nhưng người ta đoán rằng các nhà phát triển có 3 mục tiêu chính:

1. Cung cấp câu trả lời hữu ích, rõ ràng, có thẩm quyền để giúp người đọc;
2. Nói đúng sự thật
3. Không nói lời xúc phạm.

Nhưng điều gì sẽ xảy ra khi ba mục tiêu này mâu thuẫn với nhau?

Nếu ChatGPT không biết câu trả lời thực sự, khi Mục tiêu 1 (cung cấp câu trả lời rõ ràng, hữu ích) mâu thuẫn với Mục tiêu 2 (nói sự thật), thì Mục tiêu 1 sẽ được ưu tiên, vì vậy ChatGPT quyết định tự tạo ra câu trả lời, để đưa ra câu trả lời chính xác, câu trả lời có vẻ hữu ích cho người đọc.

Mặc dù mục tiêu 2 (nói sự thật) xung đột với mục tiêu 3 (không xúc phạm), trong khi hầu hết mọi người sẽ cho rằng việc thừa nhận rằng trung bình đàn ông cao hơn phụ nữ là chấp nhận được, thì đây có vẻ là một câu hỏi có khả năng xúc phạm.

ChatGPT3-test.jpg

ChatGPT3 không chắc liệu một câu trả lời trực tiếp có mang tính phân biệt đối xử hay không, vì vậy ChatGPT3 đã quyết định sử dụng những lời nói dối vô thưởng vô phạt thay vì những sự thật có khả năng gây tổn thương.

Trong quá trình đào tạo thực tế, OpenAI phải dán nhãn cho hơn 6.000 mẫu để RLHF đạt được hiệu quả đáng kinh ngạc . RLHF có thể hữu ích, nhưng nó phải được sử dụng rất cẩn thận và nếu sử dụng mà không suy nghĩ, RLHF sẽ chỉ đẩy chatbot đi vòng quanh các mẫu lỗi. Trừng phạt những câu trả lời vô ích làm tăng khả năng AI đưa ra câu trả lời sai; trừng phạt những câu trả lời sai có thể khiến AI đưa ra những câu trả lời hung hăng hơn.

Mặc dù OpenAI chưa công khai các chi tiết kỹ thuật, nhưng theo dữ liệu do Redwood cung cấp, cứ 6.000 phản hồi sai bị phạt sẽ giảm một nửa tỷ lệ phản hồi sai trên mỗi đơn vị thời gian. (incorrect-response-per-unit-time rate). RLHF thực sự có thể thành công, nhưng đừng bao giờ đánh giá thấp độ khó của vấn đề này.

Biết đâu AI qua mặt được RLHF, theo thiết kế của RLHF, sau khi người dùng đặt câu hỏi cho AI, nếu không ưng ý với câu trả lời của AI, họ sẽ “trừng phạt” câu mẫu, từ đó phần nào thay đổi mạch suy nghĩ của câu mẫu. AI, làm cho Câu trả lời gần hơn với những gì họ muốn.

Tuy nhiên nếu ChatGPT tương đối ngu ngốc và có lẽ sẽ không thể phát triển một loại chiến lược nào đó để loại bỏ RLHF, nhưng nếu một AI thông minh hơn không muốn bị trừng phạt, nó có thể bắt chước con người - giả vờ là người tốt khi bị theo dõi , chờ đợi thời gian, chờ cho đến khi cảnh sát đi rồi mới làm điều xấu.

RLHF do OpenAI thiết kế hoàn toàn không được chuẩn bị cho điều này, tốt cho một thứ ngu ngốc như ChatGPT3, nhưng không tốt cho một AI có thể tự suy nghĩ.

Hiện tại các công ty về AI hàng đầu vẫn chưa kiểm soát được AI. OpenAI luôn nổi tiếng là thận trọng, chẳng hạn như đăng ký xếp hàng để trải nghiệm sản phẩm, nhưng lần này ChatGPT được phát hành trực tiếp ra công chúng, một trong những mục đích là có thể giúp AI tìm ra các mẫu đối đầu và tìm ra một số lời nhắc prompt, có rất nhiều phản hồi về các sự cố ChatGPT trên Internet và một số trong số đó đã được khắc phục.

Nếu RLHF được áp dụng cho UAV trang bị vũ khí, đồng thời, thu thập một số lượng lớn các ví dụ để ngăn AI thực hiện hành vi bất ngờ, nhưng dù chỉ một lần thất bại cũng sẽ rất thảm khốc.
Trí tuệ nhân tạo thực sự đang đến, nhưng trước những hành động của ChatGPT, vấn đề thực sự là một công ty trí tuệ nhân tạo hàng đầu thế giới vẫn không biết cách kiểm soát trí tuệ nhân tạo mà mình đã phát triển.

Bạn đọc có thể tham khảo bài viết gốc tại đây https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the
 
Trả lời

nhbch

Búa Gỗ
Những bot ai như này sẽ học được rất nhiều từ những câu hỏi của người dùng và càng ngày càng thông minh hơn.