Nhịp sống số

DeepSeek ra mắt “mắt thần AI” đọc hiểu tài liệu như con người, xử lý nhanh gấp 20 lần

Thu Sa 22/10/2025 15:27

DeepSeek giới thiệu mô hình AI đa phương thức DeepSeek-OCR với khả năng đọc hiểu như con người, giảm 20 lần lượng dữ liệu xử lý, mở kỷ nguyên mới cho công nghệ AI.

“Mắt thần AI” đọc hiểu văn bản và hình ảnh như con người

Startup DeepSeek tiếp tục gây chú ý trong giới công nghệ toàn cầu khi ra mắt DeepSeek-OCR, mô hình “mắt thần AI” có thể đọc hiểu và phân tích tài liệu như con người. Điểm đặc biệt của công nghệ này nằm ở khả năng xử lý dữ liệu nhanh gấp 20 lần so với các hệ thống hiện có, nhờ cơ chế nén và nhận thức trực quan độc đáo.

deepseek.jpeg
DeepSeek-OCR có khả năng đọc hiểu như con người và giúp xử lý dữ liệu nhanh gấp 20 lần

Thay vì xử lý từng token văn bản như các mô hình ngôn ngữ truyền thống, DeepSeek-OCR chuyển toàn bộ nội dung sang dạng hình ảnh và sử dụng năng lực thị giác nhân tạo để hiểu ý nghĩa tổng thể. Cách tiếp cận này mô phỏng cách con người đọc một trang sách – nắm bắt bố cục và ngữ cảnh thay vì giải mã từng chữ cái.

Theo kết quả thử nghiệm nội bộ, mô hình mới giảm số lượng token cần xử lý từ 7 đến 20 lần, giúp tiết kiệm đáng kể chi phí tính toán nhưng vẫn đảm bảo độ chính xác cao. Không chỉ đọc chữ, DeepSeek-OCR còn có thể hiểu cấu trúc bảng biểu, sơ đồ, biểu đồ, hình ảnh minh họa và công thức toán học, giúp tái tạo tài liệu gốc một cách logic và đầy đủ.

DeepSeek-OCR được phát triển trên hai thành phần cốt lõi:

DeepEncoder – bộ xử lý nén dữ liệu đầu vào, giúp giữ kích thước mô hình nhỏ mà vẫn duy trì độ chính xác khi làm việc với hình ảnh độ phân giải cao.

DeepSeek3B-MoE-A570M – mô hình Mixture-of-Experts gồm 570 triệu tham số, chia nhỏ thành nhiều “chuyên gia” phụ trách từng phần thông tin, nhờ đó tối ưu hiệu suất mà không cần kích hoạt toàn bộ hệ thống cùng lúc.

Bước ngoặt cho AI đọc hiểu tài liệu và xử lý dữ liệu khổng lồ

DeepSeek-OCR được huấn luyện trên tập dữ liệu khổng lồ gồm 30 triệu trang PDF bằng 100 ngôn ngữ, cùng 10 triệu mẫu OCR tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học. Nhờ nguồn dữ liệu phong phú này, mô hình có thể đọc hiểu tài liệu phức tạp trong các lĩnh vực khoa học, pháp lý, y học hay kỹ thuật – nơi yêu cầu tính chính xác cao.

Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR hàng đầu như GOT-OCR 2.0 và MinerU 2.0. Trong khi GOT-OCR cần 256 token và MinerU tới 6.000 token cho mỗi trang, DeepSeek-OCR chỉ cần khoảng 100 token mà vẫn giữ được chất lượng đầu ra tương đương, thậm chí cao hơn.

Về hiệu năng, hệ thống có thể tạo hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một GPU NVIDIA A100-40G, cho thấy tiềm năng mở rộng quy mô huấn luyện mô hình ngôn ngữ lớn (LLM) với chi phí thấp.

Điểm đột phá quan trọng của DeepSeek-OCR là công nghệ nén quang học (optical compression) – mô hình không chỉnh sửa hình ảnh, mà nén thông tin trực quan ngay trong quá trình xử lý, giúp nhận dạng nhanh, chính xác và tiết kiệm tài nguyên. Nhờ đó, một tài liệu dài hàng triệu token có thể được rút gọn xuống chỉ còn một phần mười, giúp hệ thống AI “nhìn” toàn bộ nội dung như cách não người tiếp nhận hình ảnh.

Theo đánh giá của các chuyên gia, công nghệ này có thể tạo bước ngoặt cho các ngành cần xử lý khối lượng dữ liệu khổng lồ, từ phân tích tài chính, tra cứu pháp lý, OCR theo luồng cho đến dịch thuật thời gian thực có ngữ cảnh hình ảnh.

Đại diện DeepSeek cho biết: “DeepSeek-OCR không chỉ là một bản nâng cấp của OCR truyền thống mà là cuộc cách mạng trong cách máy móc nhận thức thế giới. Chúng tôi hướng tới mục tiêu giúp AI đọc, hiểu và suy luận như con người – nhưng nhanh và hiệu quả hơn hàng chục lần.”

Sự ra đời của DeepSeek-OCR tiếp tục củng cố vị thế của startup này trong nhóm những công ty tiên phong về AI hiệu suất cao và tiết kiệm chi phí vận hành, mở ra kỷ nguyên mới cho trí tuệ nhân tạo đọc hiểu tài liệu, hình ảnh và dữ liệu đa phương thức.

Thu Sa