Nội dung chính
1. Có một sự thật mà không ai nói thẳng về AI tiếng Việt hiện tại
Bỏ jargon sang một bên: AI nói tiếng Việt hiện nay thường kém hơn AI nói tiếng Anh, tiếng Trung, hay tiếng Nhật. Không phải vì AI kém thông minh — mà vì khi huấn luyện, chúng được "ăn" nhiều dữ liệu tiếng Anh hơn tiếng Việt gấp nhiều lần.
Hình dung đơn giản: Nếu bạn muốn dạy một đứa trẻ tiếng Việt nhưng chỉ cho chúng đọc sách tiếng Anh, kết quả sẽ thế nào? Đúng vậy — tiếng Việt của chúng sẽ "nghe" nhưng không thật.
AI hiện tại cũng vậy. ChatGPT hay Claude biết tiếng Việt — nhưng đôi khi hiểu sai sắc thái, dùng từ lạ tai người Việt, hoặc không hiểu ngữ cảnh văn hóa đặc thù. Lý do: dữ liệu tiếng Việt chất lượng cao quá khan hiếm trong quá trình huấn luyện.
ViGen ra đời để giải quyết đúng vấn đề đó.
2. ViGen là gì — con số cụ thể
ViGen (Vietnamese Generative Data Initiative) là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ huấn luyện và đánh giá các mô hình AI lớn (LLM).
Các con số đáng chú ý:
- Thu thập 150 tỷ token dữ liệu tiếng Việt thô từ nhiều nguồn
- Sau xử lý, phân loại và lọc: còn 50 tỷ token chất lượng cao sẵn sàng dùng để huấn luyện AI
- Phiên bản đầu Vi-Primer 1.0 đã được phát hành
- Giấy phép ODC-By 1.0 — bất kỳ ai cũng được dùng, chia sẻ, phát triển tiếp, kể cả mục đích thương mại (chỉ cần ghi nguồn)
50 tỷ token là nhiều như thế nào? Để so sánh: một cuốn sách trung bình có khoảng 100.000 từ (~130.000 token). 50 tỷ token tương đương khoảng 385.000 cuốn sách tiếng Việt — đây là bộ dữ liệu tiếng Việt lớn nhất từ trước đến nay ở dạng mã nguồn mở.
3. Ai đứng sau và tại sao họ làm điều này?
Meta — Tại sao Meta quan tâm đến tiếng Việt? Việt Nam có 99 triệu người dùng, trong đó hàng chục triệu người dùng Facebook/Instagram/WhatsApp mỗi ngày. AI hiểu tiếng Việt tốt hơn = sản phẩm Meta tốt hơn ở Việt Nam. Đây là lợi ích thương mại rõ ràng — không phải từ thiện thuần túy.
NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) — Đơn vị nhà nước chịu trách nhiệm điều phối và đảm bảo dữ liệu phù hợp với giá trị và đạo đức Việt Nam.
AI for Vietnam — Tổ chức phi lợi nhuận quy tụ chuyên gia AI người Việt trong và ngoài nước.
NVIDIA, Viettel — Đối tác chiến lược về hạ tầng tính toán và dữ liệu viễn thông.
4. Lộ trình — đang làm đến đâu?
| Giai đoạn | Thời gian | Nội dung |
|---|---|---|
| Phase 1 | 2025 (hoàn thành) | Thu thập, xử lý dữ liệu, phát hành Vi-Primer 1.0 |
| Phase 2 | 2026 (đang thực hiện) | Tinh chỉnh dữ liệu, 10 bộ đánh giá AI tiếng Việt, công cụ cho lập trình viên |
| Phase 3 | 2027 | Cập nhật dữ liệu liên tục, công cụ AI nâng cao cho doanh nghiệp |
Tại AI Day 2026 (16/4), ViGen được nhắc đến như một trong những sáng kiến trọng tâm trong chiến lược hạ tầng AI Việt Nam của NIC và Meta.
5. Ai có thể dùng được ngay?
Lập trình viên và nhà phát triển AI: Tải bộ dữ liệu Vi-Primer 1.0 về để huấn luyện hoặc fine-tune mô hình AI tiếng Việt riêng. Giấy phép ODC-By 1.0 cho phép dùng trong sản phẩm thương mại.
Startup AI: Thay vì tự thu thập dữ liệu tiếng Việt (tốn kém, phức tạp về bản quyền), dùng ViGen làm nền tảng và tập trung vào xây dựng sản phẩm.
Nhà nghiên cứu và học viên: Bộ 10 framework đánh giá AI tiếng Việt (phát hành trong 2026) sẽ là chuẩn chung để so sánh hiệu suất các mô hình AI nói tiếng Việt.
Điều này ảnh hưởng gì đến bạn?
Nếu bạn chỉ là người dùng AI thông thường — bạn sẽ không thấy tác động ngay hôm nay. Nhưng trong 1-2 năm tới:
AI sẽ hiểu tiếng Việt đúng hơn. Không còn những câu trả lời "đúng nghĩa đen nhưng sai ngữ cảnh". Không còn dịch thuật nghe lạ tai. AI sẽ hiểu khi bạn nói "ăn cơm chưa?" không phải câu hỏi về bữa ăn mà là câu chào hỏi xã giao.
Startup AI Việt Nam sẽ có lợi thế. Khi có dữ liệu tiếng Việt chất lượng cao miễn phí, chi phí xây dựng AI tiếng Việt giảm đáng kể. Điều đó có nghĩa là nhiều sản phẩm AI tiếng Việt tốt hơn sẽ xuất hiện — phục vụ người Việt tốt hơn.
Test thực tế cho mình: Hãy thử cùng một câu hỏi với ChatGPT bằng tiếng Anh và tiếng Việt — bạn sẽ thấy sự khác biệt. ViGen là dự án đang cố thu hẹp khoảng cách đó.
Số liệu & thống kê
| Chỉ số | Con số | Nguồn |
|---|---|---|
| Dữ liệu thô thu thập | 150 tỷ token | VietnamPlus |
| Dữ liệu chất lượng cao | 50 tỷ token | VietnamPlus |
| Tương đương sách | ~385.000 cuốn | Ước tính |
| Giấy phép | ODC-By 1.0 | Dự án ViGen |
| Framework đánh giá AI (2026) | 10 bộ | Lộ trình ViGen |
| Số giải pháp dự thi từ 2022 | 750+ từ 20+ quốc gia | VietnamPlus |
Sources
| # | Title | URL | Ghi chú |
|---|---|---|---|
| 1 | Dự án ViGen - VietnamPlus | https://www.vietnamplus.vn/du-an-vigen-tao-ra-nen-tang-du-lieu-tieng-viet-ma-nguon-mo-cho-ai-post1020595.vnp | Nguồn VI, chi tiết dự án |
| 2 | NIC và Meta bắt tay - Doanh nghiệp hội nhập | https://doanhnghiephoinhap.vn/nic-va-meta-bat-tay-phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-112223.html | Nguồn VI, thông tin hợp tác |
| 3 | ViGen - Thời báo Tài chính | https://thoibaotaichinhvietnam.vn/vigen-bien-ai-thanh-cong-cu-manh-me-cho-nguoi-viet-172411.html | Nguồn VI, phân tích |
| 4 | Phát triển dữ liệu mã nguồn mở - Bộ KH&CN | https://mst.gov.vn/phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-197251118154132797.htm | Nguồn VI, chính thức |
| 5 | Vietnam Open Data Ecosystem | https://www.vietnam.vn/en/phien-ban-thu-nghiem-dau-tien-he-sinh-thai-ai-viet-nam-du-lieu-mo-tieng-viet | Nguồn EN, tổng quan |