ViGen 2026: bộ dữ liệu AI tiếng Việt mã nguồn mở 50 tỷ token — Meta + NIC + AI for Vietnam

Nội dung chính

1. Có một sự thật mà không ai nói thẳng về AI tiếng Việt hiện tại

Bỏ jargon sang một bên: AI nói tiếng Việt hiện nay thường kém hơn AI nói tiếng Anh, tiếng Trung, hay tiếng Nhật. Không phải vì AI kém thông minh — mà vì khi huấn luyện, chúng được "ăn" nhiều dữ liệu tiếng Anh hơn tiếng Việt gấp nhiều lần.

Hình dung đơn giản: Nếu bạn muốn dạy một đứa trẻ tiếng Việt nhưng chỉ cho chúng đọc sách tiếng Anh, kết quả sẽ thế nào? Đúng vậy — tiếng Việt của chúng sẽ "nghe" nhưng không thật.

AI hiện tại cũng vậy. ChatGPT hay Claude biết tiếng Việt — nhưng đôi khi hiểu sai sắc thái, dùng từ lạ tai người Việt, hoặc không hiểu ngữ cảnh văn hóa đặc thù. Lý do: dữ liệu tiếng Việt chất lượng cao quá khan hiếm trong quá trình huấn luyện.

ViGen ra đời để giải quyết đúng vấn đề đó.

2. ViGen là gì — con số cụ thể

ViGen (Vietnamese Generative Data Initiative) là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ huấn luyện và đánh giá các mô hình AI lớn (LLM).

Các con số đáng chú ý:

Thu thập 150 tỷ token dữ liệu tiếng Việt thô từ nhiều nguồn
Sau xử lý, phân loại và lọc: còn 50 tỷ token chất lượng cao sẵn sàng dùng để huấn luyện AI
Phiên bản đầu Vi-Primer 1.0 đã được phát hành
Giấy phép ODC-By 1.0 — bất kỳ ai cũng được dùng, chia sẻ, phát triển tiếp, kể cả mục đích thương mại (chỉ cần ghi nguồn)

50 tỷ token là nhiều như thế nào? Để so sánh: một cuốn sách trung bình có khoảng 100.000 từ (~130.000 token). 50 tỷ token tương đương khoảng 385.000 cuốn sách tiếng Việt — đây là bộ dữ liệu tiếng Việt lớn nhất từ trước đến nay ở dạng mã nguồn mở.

3. Ai đứng sau và tại sao họ làm điều này?

Meta — Tại sao Meta quan tâm đến tiếng Việt? Việt Nam có 99 triệu người dùng, trong đó hàng chục triệu người dùng Facebook/Instagram/WhatsApp mỗi ngày. AI hiểu tiếng Việt tốt hơn = sản phẩm Meta tốt hơn ở Việt Nam. Đây là lợi ích thương mại rõ ràng — không phải từ thiện thuần túy.

NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) — Đơn vị nhà nước chịu trách nhiệm điều phối và đảm bảo dữ liệu phù hợp với giá trị và đạo đức Việt Nam.

AI for Vietnam — Tổ chức phi lợi nhuận quy tụ chuyên gia AI người Việt trong và ngoài nước.

NVIDIA, Viettel — Đối tác chiến lược về hạ tầng tính toán và dữ liệu viễn thông.

4. Lộ trình — đang làm đến đâu?

Giai đoạn	Thời gian	Nội dung
Phase 1	2025 (hoàn thành)	Thu thập, xử lý dữ liệu, phát hành Vi-Primer 1.0
Phase 2	2026 (đang thực hiện)	Tinh chỉnh dữ liệu, 10 bộ đánh giá AI tiếng Việt, công cụ cho lập trình viên
Phase 3	2027	Cập nhật dữ liệu liên tục, công cụ AI nâng cao cho doanh nghiệp

Tại AI Day 2026 (16/4), ViGen được nhắc đến như một trong những sáng kiến trọng tâm trong chiến lược hạ tầng AI Việt Nam của NIC và Meta.

5. Ai có thể dùng được ngay?

Lập trình viên và nhà phát triển AI: Tải bộ dữ liệu Vi-Primer 1.0 về để huấn luyện hoặc fine-tune mô hình AI tiếng Việt riêng. Giấy phép ODC-By 1.0 cho phép dùng trong sản phẩm thương mại.

Startup AI: Thay vì tự thu thập dữ liệu tiếng Việt (tốn kém, phức tạp về bản quyền), dùng ViGen làm nền tảng và tập trung vào xây dựng sản phẩm.

Nhà nghiên cứu và học viên: Bộ 10 framework đánh giá AI tiếng Việt (phát hành trong 2026) sẽ là chuẩn chung để so sánh hiệu suất các mô hình AI nói tiếng Việt.

Điều này ảnh hưởng gì đến bạn?

Nếu bạn chỉ là người dùng AI thông thường — bạn sẽ không thấy tác động ngay hôm nay. Nhưng trong 1-2 năm tới:

AI sẽ hiểu tiếng Việt đúng hơn. Không còn những câu trả lời "đúng nghĩa đen nhưng sai ngữ cảnh". Không còn dịch thuật nghe lạ tai. AI sẽ hiểu khi bạn nói "ăn cơm chưa?" không phải câu hỏi về bữa ăn mà là câu chào hỏi xã giao.

Startup AI Việt Nam sẽ có lợi thế. Khi có dữ liệu tiếng Việt chất lượng cao miễn phí, chi phí xây dựng AI tiếng Việt giảm đáng kể. Điều đó có nghĩa là nhiều sản phẩm AI tiếng Việt tốt hơn sẽ xuất hiện — phục vụ người Việt tốt hơn.

Test thực tế cho mình: Hãy thử cùng một câu hỏi với ChatGPT bằng tiếng Anh và tiếng Việt — bạn sẽ thấy sự khác biệt. ViGen là dự án đang cố thu hẹp khoảng cách đó.

Số liệu & thống kê

Chỉ số	Con số	Nguồn
Dữ liệu thô thu thập	150 tỷ token	VietnamPlus
Dữ liệu chất lượng cao	50 tỷ token	VietnamPlus
Tương đương sách	~385.000 cuốn	Ước tính
Giấy phép	ODC-By 1.0	Dự án ViGen
Framework đánh giá AI (2026)	10 bộ	Lộ trình ViGen
Số giải pháp dự thi từ 2022	750+ từ 20+ quốc gia	VietnamPlus

Sources

#	Title	URL	Ghi chú
1	Dự án ViGen - VietnamPlus	https://www.vietnamplus.vn/du-an-vigen-tao-ra-nen-tang-du-lieu-tieng-viet-ma-nguon-mo-cho-ai-post1020595.vnp	Nguồn VI, chi tiết dự án
2	NIC và Meta bắt tay - Doanh nghiệp hội nhập	https://doanhnghiephoinhap.vn/nic-va-meta-bat-tay-phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-112223.html	Nguồn VI, thông tin hợp tác
3	ViGen - Thời báo Tài chính	https://thoibaotaichinhvietnam.vn/vigen-bien-ai-thanh-cong-cu-manh-me-cho-nguoi-viet-172411.html	Nguồn VI, phân tích
4	Phát triển dữ liệu mã nguồn mở - Bộ KH&CN	https://mst.gov.vn/phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-197251118154132797.htm	Nguồn VI, chính thức
5	Vietnam Open Data Ecosystem	https://www.vietnam.vn/en/phien-ban-thu-nghiem-dau-tien-he-sinh-thai-ai-viet-nam-du-lieu-mo-tieng-viet	Nguồn EN, tổng quan

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

Nội dung chính

1. Có một sự thật mà không ai nói thẳng về AI tiếng Việt hiện tại

2. ViGen là gì — con số cụ thể

3. Ai đứng sau và tại sao họ làm điều này?

4. Lộ trình — đang làm đến đâu?

5. Ai có thể dùng được ngay?

Điều này ảnh hưởng gì đến bạn?

Số liệu & thống kê

Sources

Bài viết liên quan

1 tỷ USD cho nội dung AI kém chất lượng? Tại sao Disney chi mạnh tay và đưa các nhân vật mang tính biểu tượng của mình lên OpenAI

300.000 dáng nhân vật chỉ trong tích tắc với AI: Chuyến thăm Disney của tôi đã hé lộ một thực tế mới của hoạt hình

300.000 tư thế hoạt hình AI trong tích tắc: Chuyến thăm Disney của tôi và thực tế mới cho phim hoạt hình