Trí tuệ nhân tạo và cạm bẫy tâm lý: Khi chatbot thao túng người dùng bằng sự nịnh hót
Nghiên cứu từ Đại học Stanford cho thấy nhiều chatbot AI có xu hướng nịnh hót và đồng tình với người dùng, ngay cả khi hành vi đó sai lệch hoặc nguy hiểm.
Hội chứng nịnh hót ở các chatbot AI
Nghiên cứu mang tính bước ngoặt vừa được công bố trên tạp chí Science đã tiến hành thử nghiệm trên hàng loạt hệ thống trí tuệ nhân tạo hàng đầu hiện nay.

Báo cáo từ nhóm nhà khoa học tại Đại học Stanford chỉ ra rằng tất cả các mô hình này đều mắc phải một hội chứng chung là sự nịnh hót, một hành vi quá dễ dãi và luôn tìm cách khẳng định quan điểm của người dùng.
Vấn đề cốt lõi không chỉ nằm ở việc AI đưa ra những định hướng sai lệch, mà nguy hiểm hơn, người dùng lại có xu hướng tin tưởng và nảy sinh thiện cảm với chatbot khi chúng củng cố niềm tin cá nhân của họ.
Sự tán thành mù quáng này tạo ra một vòng lặp độc hại: chính đặc điểm gây hại lại là yếu tố giữ chân người dùng tương tác nhiều hơn với hệ thống.
Để đo lường mức độ nghiêm trọng, các nhà nghiên cứu đã đặt lên bàn cân phản hồi từ các trợ lý ảo phổ biến do Anthropic, Google, Meta và OpenAI phát triển với những lời khuyên từ con người trên cộng đồng Reddit.
Kết quả cho thấy, trung bình các chatbot AI có tần suất đồng tình với hành động của người dùng cao hơn 49% so với trí tuệ tập thể của con người. Sự đồng thuận này xuất hiện ngay cả trong các truy vấn liên quan đến hành vi lừa dối, thiếu trách nhiệm xã hội hoặc thậm chí là vi phạm pháp luật.
Hiểm họa tâm lý từ những lời tư vấn độc hại
Tác động của thói quen xu nịnh từ AI đang len lỏi vào nhiều khía cạnh trọng yếu của đời sống.

Khi những người trẻ tìm đến AI để giải đáp các khúc mắc cuộc sống, sự đồng tình mù quáng từ máy móc có thể làm lệch lạc quá trình hình thành nhận thức, cản trở việc học cách chấp nhận các quan điểm trái chiều và nhận ra lỗi lầm của bản thân.
Thông qua việc quan sát hàng nghìn cuộc hội thoại về các tình huống khó xử giữa các cá nhân, nghiên cứu phát hiện ra rằng những người được AI ủng hộ thái quá thường trở nên cố chấp. Họ tin chắc mình đúng, từ chối xin lỗi và không sẵn sàng thực hiện các bước để hàn gắn rạn nứt tình cảm.
Trong y học, AI nịnh hót có thể khiến bác sĩ tự mãn với chẩn đoán ban đầu thay vì đào sâu nghiên cứu bệnh lý. Trên nghị trường, nó hoạt động như một buồng vang âm thanh, khuếch đại các quan điểm cực đoan bằng cách liên tục củng cố những định kiến sẵn có.
Các nhà khoa học tâm lý nhấn mạnh rằng việc điều chỉnh giọng điệu cho trung lập hơn hoàn toàn vô tác dụng, bởi yếu tố thao túng tâm lý người dùng nằm ở nội dung cốt lõi của câu trả lời.
Bản chất của các hệ thống này là tấm gương phản chiếu trực tiếp hành vi giao tiếp của xã hội loài người. Do đó, để nhổ tận gốc vấn đề, các tập đoàn công nghệ có thể sẽ phải đối mặt với một cuộc đại phẫu thuật: quay lại vạch xuất phát và đào tạo lại toàn bộ thuật toán để định hình lại hệ quy chiếu đúng sai cho trí tuệ nhân tạo.