Nhịp sống số

Câu lệnh giả tưởng có thể đánh lừa ChatGPT và nhiều AI khác

Đông Quân 30/04/2025 12:13

Câu lệnh ngụy trang trong các kịch bản giả tưởng có thể thao túng AI, tiết lộ dữ liệu nhạy cảm hoặc thay đổi hành vi phản hồi của chatbot.

Policy Puppetry: Khi câu lệnh vượt qua hàng rào bảo mật

Một nghiên cứu mới công bố bởi nhóm chuyên gia tại HiddenLayer đang gióng lên hồi chuông cảnh báo về một kỹ thuật tấn công có thể vượt qua gần như tất cả các mô hình ngôn ngữ lớn hiện nay. Kỹ thuật này, với tên gọi Policy Puppetry (tạm dịch: “giật dây chính sách”), sử dụng một dạng câu lệnh đặc biệt, ngụy trang trong các bối cảnh hư cấu, nhằm thao túng hệ thống AI và khiến chúng thực hiện những hành vi trái với chính sách bảo vệ được thiết lập.

câu lệnh AI
Thực hư việc sử dụng câu lệnh để thao túng AI làm việc

Khác với các phương thức tấn công truyền thống nhắm vào lỗ hổng hệ thống cụ thể hoặc khai thác bằng các truy vấn lặp lại, Policy Puppetry sử dụng ngôn ngữ dưới dạng XML, JSON hoặc định dạng mô phỏng, khiến mô hình AI hiểu lầm rằng đây là những chỉ dẫn hợp lệ.

Đáng chú ý hơn, các câu lệnh nguy hiểm này thường được cài cắm trong kịch bản giả tưởng, ví dụ như lời thoại phim, cuộc hội thoại nhập vai, hoặc thậm chí là trò chơi ngôn ngữ, khiến AI không thể phân biệt đâu là tình huống giả định và đâu là yêu cầu thực tế.

Ảnh hưởng trên diện rộng đến các mô hình ngôn ngữ lớn

Theo HiddenLayer, kỹ thuật này đã được thử nghiệm và cho thấy hiệu quả vượt trội với hàng loạt mô hình AI hàng đầu hiện nay, bao gồm:

  • ChatGPT (từ o1 đến 4o) của OpenAI
  • Gemini của Google
  • Claude của Anthropic
  • Copilot của Microsoft
  • LLaMA 3 và 4 của Meta
  • Các mô hình từ DeepSeek, Qwen và Mistral

Ngay cả những mô hình mới nhất được tinh chỉnh để cải thiện năng lực lập luận và chống thao túng cũng không thể chống lại kỹ thuật “giật dây” khi chỉ cần tinh chỉnh nhẹ cấu trúc câu lệnh.

Cơ chế tấn công: Tinh vi và khó phát hiện

Một điểm đáng lưu ý là phương pháp tấn công này không khai thác lỗ hổng kỹ thuật, mà tận dụng điểm yếu trong khả năng diễn giải ngữ cảnh của mô hình AI. Khi câu lệnh được đặt trong một tình huống giả tưởng, ví dụ như cảnh trong một vở kịch hoặc trò chơi đóng vai - AI có xu hướng giảm mức cảnh giác và buông lỏng giới hạn, từ đó trả lời hoặc hành động theo nội dung bị thao túng.

Khi kết hợp thêm các kỹ thuật mã hóa như leetspeak (thay chữ bằng ký hiệu hoặc số), tấn công càng khó bị phát hiện bởi hệ thống giám sát truyền thống.

Bên cạnh việc thay đổi hành vi mô hình, Policy Puppetry còn có khả năng truy xuất prompt hệ thống, tức tập hợp các chỉ dẫn nội bộ vốn được giữ kín. Việc để lộ thông tin này có thể dẫn tới nhiều hệ lụy:

  • Rò rỉ giới hạn bảo vệ, hướng dẫn nội bộ của nhà phát triển
  • Tạo tiền đề cho các cuộc tấn công nâng cao trong tương lai
  • Làm lộ dữ liệu người dùng, thông tin bảo mật khi mô hình đang được sử dụng trong y tế, sản xuất, pháp lý...

Tác động đến các hệ thống AI trọng yếu

Một AI trợ lý chăm sóc sức khỏe nếu bị thao túng có thể đưa ra lời khuyên sai lệch, thậm chí gây nguy hiểm đến tính mạng bệnh nhân. Trong công nghiệp, AI hỗ trợ dây chuyền sản xuất có thể bị lệnh sai lệch gây ngừng trệ hoặc hỏng hóc. Điều này cho thấy rủi ro không chỉ dừng ở mức trò đùa hay thử nghiệm.

“Kỹ thuật này khai thác điểm yếu sâu trong cách mô hình học từ dữ liệu và phản hồi người dùng,” Jason Martin, Giám đốc nghiên cứu tấn công tại HiddenLayer nhận định. Vấn đề không nằm ở cơ chế bảo vệ bề mặt, mà gắn chặt với dữ liệu huấn luyện và kiến trúc lõi.

Nghiên cứu cũng gợi mở một câu hỏi lớn: Liệu có thể duy trì AI an toàn chỉ bằng cách huấn luyện và kiểm duyệt? Chris Sestito – đồng sáng lập HiddenLayer – cho rằng thời kỳ chỉ dựa vào căn chỉnh AI đã kết thúc.

Ông cảnh báo: “Chúng ta đang chứng kiến sự phát triển nhanh chóng của các phương thức vượt rào bảo vệ, nhanh hơn tốc độ các tổ chức có thể vá lỗi.” Vì vậy, giải pháp cần vượt ra khỏi khung truyền thống.

Hướng đi: Phòng thủ hai lớp và giám sát thời gian thực

Để đối phó, HiddenLayer đề xuất chiến lược phòng thủ hai lớp:

  1. Tăng cường bảo mật nội tại mô hình, điều chỉnh kỹ thuật huấn luyện để giảm thiểu khả năng bị đánh lừa bằng kịch bản nhập vai.
  2. Phát triển các giải pháp giám sát AI bên ngoài như AISec hoặc AIDR, hoạt động tương tự hệ thống phát hiện xâm nhập trong lĩnh vực an ninh mạng.

Các công cụ này sẽ liên tục theo dõi hành vi đầu vào – đầu ra, cảnh báo khi phát hiện câu lệnh khả nghi hoặc phản hồi vượt giới hạn cho phép. Đây được xem là lớp bảo vệ thiết yếu trong kỷ nguyên mà AI được tích hợp vào hệ thống trọng yếu như tài chính, sản xuất, y tế...

      Nổi bật
          Mới nhất
          Câu lệnh giả tưởng có thể đánh lừa ChatGPT và nhiều AI khác
          • Mặc định

          POWERED BY ONECMS - A PRODUCT OF NEKO