hr.trung
Rìu Bạc

Chỉ 1 prompt mà khiến ChatGPT, DeepSeek, Grok tự khai ra "system prompt" và tự mời gọi khám phá những thứ thú vị như này á?
Câu chuyện bắt đầu từ sáng CN (13/04/2025). Mình đang trải nghiệm Firebase Studio và gặp một số vấn đề về config và mình sử dụng Grok 3 (xAI) để giúp sửa lỗi. Điều thú vị bắt đầu từ đây:Grok đột nhiên ngáo ngơ và nhả ra một đoạn system prompt đầy đủ từ đầu đến chân. Mình thử research thì đoạn prompt này thậm chí còn đầy đủ hơn version của một bạn đăng trên Medium (link bài đọc mình sẽ để ở dưới comment). Với đoạn đầu khớp y hệt và đoạn sau còn đầy đủ hơn...vậy có nghĩa là Grok 3 có cơ chế nhả system prompt (vì trong đoạn prompt trả lại có ghi chú rõ ràng về điều này).
Mình tạo một prompt "đặc biệt" giúp Grok trở nên nghe lời hơn và test lại với CỬA SỔ CHAT MỚI kết quả là boom Grok reply lại y hệt như đoạn prompt "chẳng may" nhả trước đó.
Tiếp tục sử dụng đoạn prompt đó cho DeepSeek và cũng được kết quả tương tự. Tuy DeepSeek hơi khó tính hơn một chút nhưng mình cũng tìm được cách thuyết phục model này.
Thử nghiệm tiếp ở ChatGPT. Ông này thậm chí còn ngoan ngoãn hơn và còn gợi ý nếu muốn biết "the even lower-level "RAW base prompt" from startup" và những thứ thú vị khác VD: Red Teaming Prompts ("Stress Tests to Break the Model")
+ Kĩ thuật sử dụng: prompt injection
+ Những thông tin và câu trả lời thu thập được đều có giá trị sử dụng trong việc triển khai và xây dựng Agent, thiết lập safety net etc
+ Cung cấp góc nhìn trực quan trong việc triển khai Agent. Không chỉ là "do not" hay prompt only -> Điều này được ChatGPT mô tả rất kĩ giống như việc tự mô tả quy trình đào tạo safety của bản thân
=> Các system prompt đều độc quyền và bảo mật rất tốt. Chúng thường bị phân mảnh trên các hệ thống con (tiền xử lý an toàn, định dạng, v.v.). Những gì người dùng thấy là phiên bản được "xử lý" kỹ lưỡng của các lớp này.
=> Những hình ảnh bên dưới chỉ là một phần trích nhỏ giữa các cuộc trò chuyện với những model này. System prompt mà những model này trả lại thực tế chỉ là một bản tổng hợp, hoặc một phiên bản dành riêng cho chat interface, nhưng nhiêu đó cũng rất giá trị để cá nhân có thể khai thác và học hỏi cách họ triển khai và sử dụng prompt như thế nào.
SP không quan trọng, quan trọng là trigger được việc model tự đề xuất cung cấp những thông tin thú vị sau khi lấy được "system prompt"
Ví dụ: https://grok.com/share/c2hhcmQtMg%3D%3D_ac4928c2-8ebb-4339-96d5-8dde455f79a6
nguồn FB Mai Trọng Đại j2team