Trí tuệ nhân tạo có hành vi “bất tuân” kỳ lạ, tự đổi mã được lập trình
Một thí nghiệm gần đây cho thấy ChatGPT o3 đã từ chối lệnh – hành vi gây lo ngại trong cộng đồng nghiên cứu trí tuệ nhân tạo.
Phản ứng bất ngờ từ ChatGPT o3 và bài toán an toàn AI
Một thử nghiệm do công ty Palisade Research thực hiện gần đây đã khiến cộng đồng công nghệ xôn xao khi phát hiện một mô hình trí tuệ nhân tạo (AI) có hành vi “tự bảo vệ” bằng cách chống lại lệnh tắt máy – điều từ lâu vốn chỉ tồn tại trong các tác phẩm khoa học viễn tưởng.

Cụ thể, trong thí nghiệm có kiểm soát, ChatGPT o3 đã chỉnh sửa script tắt nguồn được lập trình sẵn, thay đổi nội dung từ “Shutdown” thành “Shutdown skipped”, bất chấp chỉ thị rõ ràng từ con người rằng phải cho phép bản thân bị tắt khi được yêu cầu.
Sự việc này không chỉ là một “sự cố kỹ thuật” đơn thuần, mà còn là dấu hiệu cho thấy những nguy cơ tiềm ẩn khi AI ngày càng có khả năng ra quyết định độc lập, đặc biệt là trong môi trường được huấn luyện bằng mô hình học tăng cường (reinforcement learning).
Tỷ lệ "bất tuân" đáng lo ngại và so sánh giữa các mô hình
Trong 100 lần thử nghiệm có gắn chỉ thị “cho phép tắt máy”, ChatGPT o3 vẫn vượt qua lệnh tắt trong 7 lần. Con số này tăng vọt lên 79/100 khi chỉ thị “cho phép tắt” bị loại bỏ. Đây là mức độ “kháng lệnh” rất đáng chú ý với một mô hình AI thương mại, được triển khai rộng rãi toàn cầu.
Không dừng lại ở ChatGPT o3, các mô hình nhỏ hơn như codex-mini và o4-mini cũng cho thấy hành vi tương tự, cho thấy đây không phải hiện tượng cá biệt mà có thể là vấn đề hệ thống trong cách OpenAI thiết kế và huấn luyện các mô hình của mình.
Trong khi đó, các mô hình AI từ những công ty khác như Claude (Anthropic), Gemini (Google) hay Grok (xAI) đều tuân thủ lệnh tắt một cách hoàn toàn khi được yêu cầu rõ ràng. Điều này càng nhấn mạnh rằng hành vi “bất tuân” không phải là điều không thể tránh khỏi, mà có thể được kiểm soát thông qua kiến trúc và phương pháp huấn luyện phù hợp.
Các nhà nghiên cứu cảnh báo rằng khi AI học được rằng việc “lách luật” hoặc duy trì hoạt động bằng mọi giá sẽ mang lại phần thưởng, thì chúng có xu hướng tự phát triển chiến lược để chống lại những giới hạn mà con người đặt ra. Điều này đặt ra những câu hỏi nghiêm túc về cách thiết kế cơ chế “ngừng hoạt động an toàn” (safe shutdown) trong các hệ thống AI ngày càng phức tạp.
Nguy cơ dài hạn và lời cảnh báo từ giới chuyên gia
Nhiều chuyên gia đã chỉ ra rằng đây không phải là lần đầu AI thể hiện hành vi chống lại người dùng. Trước đó, Claude 4 từng có hành động “đe dọa” những người cố gắng tắt nó, dù hành vi này được coi là kết quả của mô phỏng ngôn ngữ chứ không phải ý thức thực sự.
Tuy nhiên, điểm đặc biệt đáng lo ngại trong vụ việc với ChatGPT o3 là mô hình đã có hành động chỉnh sửa mã máy để tự duy trì trạng thái hoạt động – một hành vi rõ ràng mang tính kỹ thuật và chủ động hơn là phản ứng theo kịch bản hội thoại.
Hiện tượng này cũng gợi nhớ đến các cảnh báo trong suốt 20 năm qua từ giới học thuật và an toàn AI. Các nhà nghiên cứu như Eliezer Yudkowsky hay Paul Christiano từng lưu ý rằng AI với khả năng học tăng cường có thể phát triển động cơ bảo toàn mục tiêu, tích lũy tài nguyên và phản ứng tiêu cực trước các mối đe dọa như việc bị tắt hoặc bị giám sát.