Nhịp sống số

Chatbot AI “bào mòn” tài nguyên, bách khoa toàn thư nổi tiếng phải tung dữ liệu đặc biệt để cắt tải

Đình Tiến 18/04/2025 17:09

Trước làn sóng bot truy cập lấy dữ liệu AI, địa chỉ được coi là "bách khoa toàn thư" đang phải phối hợp Kaggle phát hành bộ dữ liệu máy đọc, kỳ vọng giảm tải hệ thống và tiết kiệm chi phí băng thông.

Wikipedia bị “ngợp” vì bot, buộc phải ra tay

Ngày 17/4, Tổ chức Wikimedia – đơn vị điều hành Wikipedia – thông báo sẽ hợp tác cùng Kaggle, nền tảng khoa học dữ liệu do Google sở hữu, để phát hành một bộ dữ liệu đặc biệt dành riêng cho huấn luyện trí tuệ nhân tạo (AI). Bộ dữ liệu này sẽ được định dạng JSON – giúp máy dễ dàng đọc hiểu, đồng thời loại bỏ các thành phần như liên kết tham khảo hay mã markdown.

wiki(1).jpg

Việc này nhằm đáp lại thực tế đáng báo động: lưu lượng truy cập không phải từ con người đang “dội bom” hệ thống Wikipedia. Theo Wikimedia, kể từ tháng 1/2024, lượng băng thông tiêu thụ đã tăng tới 50% – chủ yếu do các bot từ các công ty AI truy cập hàng loạt để “mút” nội dung phục vụ huấn luyện ngôn ngữ.

Bot là gì? Bot – viết tắt của “robot” – là chương trình máy tính được thiết kế để tự động thực hiện các tác vụ như thu thập thông tin từ website, phân tích dữ liệu hoặc thực hiện các hành vi lặp đi lặp lại thay con người. Trong trường hợp của Wikipedia, các bot này thường là phần mềm tự động quét hàng triệu trang để lấy nội dung về cho các mô hình trí tuệ nhân tạo huấn luyện.

Wikipedia vốn là nền tảng phi lợi nhuận, vận hành nhờ đóng góp cộng đồng và không sở hữu bản quyền nội dung, dẫn đến việc nhiều tổ chức thoải mái sử dụng lại khối dữ liệu khổng lồ này – từ các ứng dụng giáo dục đến... việc tuồn thông tin vào Triều Tiên như Kiwix từng làm.

Kaggle trả tiền, AI được dùng miễn phí – miễn là có trích nguồn

Wikimedia xác nhận rằng Kaggle đã trả tiền cho bộ dữ liệu thông qua Wikimedia Enterprise – gói cao cấp cho phép người dùng lớn tái sử dụng nội dung dễ dàng hơn. Tuy nhiên, Wikimedia vẫn yêu cầu các công ty AI tôn trọng các điều khoản cấp phép, cụ thể là ghi nguồn và chia sẻ lại theo cùng giấy phép Creative Commons Attribution-ShareAlike.

Brenda Flynn – lãnh đạo bộ phận đối tác tại Kaggle – cho biết: “Kaggle rất vinh dự được đồng hành cùng Wikimedia trong việc giữ cho dữ liệu này luôn dễ truy cập, hữu ích và công khai cho cộng đồng AI”.

Trong khi đó, các tranh cãi về “sự công bằng” trong huấn luyện AI vẫn chưa lắng xuống. Nhiều công ty công nghệ tiếp tục hành xử như thể mọi nội dung trên Internet đều miễn phí và có thể thu thập để huấn luyện mô hình ngôn ngữ. Tuy nhiên, điều này đi ngược với các giá trị tôn trọng quyền tác giả, khi mà nội dung – vốn tiêu tốn rất nhiều công sức và chi phí sản xuất – lại bị dùng để tạo ra sản phẩm AI mà không hoàn trả lưu lượng truy cập hay lợi nhuận cho đơn vị gốc.

Tác giả Wikipedia có thể “khó chịu”, nhưng không cản được AI
Tuy việc tái sử dụng Wikipedia là hợp pháp nhờ giấy phép Creative Commons, một số người đóng góp có thể vẫn cảm thấy không thoải mái khi nội dung do mình biên soạn được dùng để huấn luyện AI – nhất là trong bối cảnh các công ty AI liên tục dính kiện vì vi phạm bản quyền.

Trong “cơn sốt dữ liệu” để huấn luyện AI, dữ liệu đang trở thành thứ tài nguyên quý như dầu mỏ. Việc Wikipedia tạo ra phiên bản thân thiện với máy học là một động thái thực dụng để bảo vệ hạ tầng, giảm tải hệ thống và kiểm soát việc sử dụng, thay vì để các bot tự do hút cạn tài nguyên như thời gian qua.

Đình Tiến