Mô hình ngôn ngữ nhỏ sẽ là đột phá tiếp theo của AI, cú hích lớn trước Gemini, ChatGPT
Mô hình ngôn ngữ nhỏ đang trở thành lựa chọn mới giúp giảm chi phí đào tạo, tiết kiệm năng lượng và dễ tùy biến hơn so với các mô hình AI lớn như ChatGPT hay Gemini.
Từ sức mạnh của LLM đến xu hướng thu gọn
Trong bối cảnh trí tuệ nhân tạo ngày càng phát triển, mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay Claude được xem là trụ cột của công nghệ hiện đại nhờ khả năng xử lý ngôn ngữ tự nhiên mạnh mẽ. Các mô hình này thường sở hữu hàng trăm tỷ tham số, giúp tăng độ chính xác và khả năng suy luận phức tạp. Tuy nhiên, đi cùng với sức mạnh đó là chi phí đào tạo và vận hành cực kỳ lớn.

Chẳng hạn, Google đã chi tới 191 triệu USD để huấn luyện Gemini 1.0 Ultra, một mô hình sử dụng quy mô tham số khổng lồ. Ngoài ra, mỗi truy vấn mà người dùng đặt ra cho một LLM như ChatGPT có thể tiêu thụ năng lượng gấp 10 lần so với tìm kiếm Google, theo Viện nghiên cứu điện lực Mỹ (EPRI). Những con số này đặt ra bài toán cấp thiết về tính bền vững trong vận hành AI.
Để giải quyết vấn đề đó, giới nghiên cứu đang hướng sự chú ý sang mô hình ngôn ngữ nhỏ (Small Language Model – SLM), với quy mô chỉ từ vài trăm triệu đến vài tỷ tham số, nhưng vẫn đạt hiệu quả cao trong những nhiệm vụ chuyên biệt.
Mô hình ngôn ngữ nhỏ: Ít tham số, hiệu quả cao
Không giống như LLM với mục tiêu trở thành công cụ đa năng, SLM được thiết kế để xử lý các tác vụ hẹp, như tóm tắt cuộc trò chuyện, hỗ trợ chăm sóc sức khỏe, hoặc thu thập dữ liệu trong thiết bị IoT. Một số tổ chức tiên phong trong hướng đi này gồm IBM, Google, OpenAI và Microsoft, với các sản phẩm SLM mới chỉ chứa tối đa khoảng 10 tỷ tham số.
Zico Kolter, chuyên gia khoa học máy tính tại Đại học Carnegie Mellon, nhận định: “Với nhiều tác vụ cụ thể, một mô hình 8 tỷ tham số là đủ tốt”. Không chỉ vậy, nhờ quy mô nhỏ gọn, các mô hình này có thể chạy trên laptop, smartphone, thay vì phụ thuộc vào trung tâm dữ liệu quy mô lớn như LLM.
Ngoài ra, mô hình ngôn ngữ nhỏ còn mang lại khả năng minh bạch và linh hoạt trong thử nghiệm, rất phù hợp với môi trường nghiên cứu và triển khai ở quy mô vừa và nhỏ.
Chiến lược chưng cất kiến thức và cắt tỉa mạng thần kinh
Để nâng cao hiệu suất của SLM, các nhà nghiên cứu đang áp dụng kỹ thuật chưng cất kiến thức (knowledge distillation), trong đó LLM đóng vai trò “giáo viên”, truyền lại kiến thức cho SLM – như học sinh tiếp nhận bài giảng từ thầy cô. Nhờ vậy, dù sử dụng ít dữ liệu hơn, nhưng chất lượng đầu vào cho mô hình nhỏ lại cao hơn và có tổ chức, giúp rút ngắn thời gian đào tạo.
Một chiến lược khác là "cắt tỉa" mạng thần kinh – loại bỏ các phần ít đóng góp vào kết quả dự đoán, tương tự cách não bộ con người cắt giảm kết nối thần kinh không còn cần thiết theo thời gian. Kỹ thuật này từng được nhà khoa học Yann LeCun đề xuất từ năm 1989, với luận điểm rằng có thể loại bỏ tới 90% tham số mà không làm giảm hiệu quả mô hình.
Những cách tiếp cận này không chỉ giúp mô hình ngôn ngữ nhỏ trở nên tinh gọn, tiết kiệm năng lượng, mà còn cho phép tùy chỉnh theo từng môi trường hoặc mục tiêu sử dụng cụ thể.
Thử nghiệm chi phí thấp, hiệu quả cao
Leshem Choshen, nhà khoa học tại Phòng thí nghiệm AI Watson MIT-IBM, cho biết: “Mô hình nhỏ cho phép các nhà nghiên cứu thử nghiệm ý tưởng mới với mức cược thấp hơn”. Đây là điểm khác biệt then chốt giữa SLM và LLM, vốn đòi hỏi đầu tư lớn và thời gian đào tạo dài hơn rất nhiều.
Với SLM, giới nghiên cứu có thể nhanh chóng thử nghiệm, tinh chỉnh thuật toán và kiểm chứng ý tưởng trước khi quyết định mở rộng hoặc chuyển sang mô hình lớn hơn. Điều này góp phần đẩy nhanh quá trình đổi mới trong lĩnh vực trí tuệ nhân tạo mà không tạo ra gánh nặng chi phí.