WEBSITE ĐANG PHÁT TRIỂN

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

ViGen là dự án tạo ra bộ dữ liệu tiếng Việt khổng lồ để huấn luyện AI — do Meta, NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) và AI for Vietnam phối hợp thực hiện, với sự tham gia của NVIDIA và Viettel. Phiên bản đầu tiên Vi-Primer 1.0 đã có 50 tỷ token dữ liệu tiếng Việt chất lượng cao, mã nguồn mở hoàn toàn. Nói thẳng: đây là lý do AI sẽ hiểu tiếng Việt tốt hơn, hiểu văn hóa và ngữ cảnh Việt Nam đúng hơn — và tại sao điều đó quan trọng hơn bạn nghĩ.

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

Nội dung chính

1. Có một sự thật mà không ai nói thẳng về AI tiếng Việt hiện tại

Bỏ jargon sang một bên: AI nói tiếng Việt hiện nay thường kém hơn AI nói tiếng Anh, tiếng Trung, hay tiếng Nhật. Không phải vì AI kém thông minh — mà vì khi huấn luyện, chúng được "ăn" nhiều dữ liệu tiếng Anh hơn tiếng Việt gấp nhiều lần.

Hình dung đơn giản: Nếu bạn muốn dạy một đứa trẻ tiếng Việt nhưng chỉ cho chúng đọc sách tiếng Anh, kết quả sẽ thế nào? Đúng vậy — tiếng Việt của chúng sẽ "nghe" nhưng không thật.

AI hiện tại cũng vậy. ChatGPT hay Claude biết tiếng Việt — nhưng đôi khi hiểu sai sắc thái, dùng từ lạ tai người Việt, hoặc không hiểu ngữ cảnh văn hóa đặc thù. Lý do: dữ liệu tiếng Việt chất lượng cao quá khan hiếm trong quá trình huấn luyện.

ViGen ra đời để giải quyết đúng vấn đề đó.


2. ViGen là gì — con số cụ thể

ViGen (Vietnamese Generative Data Initiative) là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ huấn luyện và đánh giá các mô hình AI lớn (LLM).

Các con số đáng chú ý:

  • Thu thập 150 tỷ token dữ liệu tiếng Việt thô từ nhiều nguồn
  • Sau xử lý, phân loại và lọc: còn 50 tỷ token chất lượng cao sẵn sàng dùng để huấn luyện AI
  • Phiên bản đầu Vi-Primer 1.0 đã được phát hành
  • Giấy phép ODC-By 1.0 — bất kỳ ai cũng được dùng, chia sẻ, phát triển tiếp, kể cả mục đích thương mại (chỉ cần ghi nguồn)

50 tỷ token là nhiều như thế nào? Để so sánh: một cuốn sách trung bình có khoảng 100.000 từ (~130.000 token). 50 tỷ token tương đương khoảng 385.000 cuốn sách tiếng Việt — đây là bộ dữ liệu tiếng Việt lớn nhất từ trước đến nay ở dạng mã nguồn mở.


3. Ai đứng sau và tại sao họ làm điều này?

Meta — Tại sao Meta quan tâm đến tiếng Việt? Việt Nam có 99 triệu người dùng, trong đó hàng chục triệu người dùng Facebook/Instagram/WhatsApp mỗi ngày. AI hiểu tiếng Việt tốt hơn = sản phẩm Meta tốt hơn ở Việt Nam. Đây là lợi ích thương mại rõ ràng — không phải từ thiện thuần túy.

NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) — Đơn vị nhà nước chịu trách nhiệm điều phối và đảm bảo dữ liệu phù hợp với giá trị và đạo đức Việt Nam.

AI for Vietnam — Tổ chức phi lợi nhuận quy tụ chuyên gia AI người Việt trong và ngoài nước.

NVIDIA, Viettel — Đối tác chiến lược về hạ tầng tính toán và dữ liệu viễn thông.


4. Lộ trình — đang làm đến đâu?

Giai đoạn Thời gian Nội dung
Phase 1 2025 (hoàn thành) Thu thập, xử lý dữ liệu, phát hành Vi-Primer 1.0
Phase 2 2026 (đang thực hiện) Tinh chỉnh dữ liệu, 10 bộ đánh giá AI tiếng Việt, công cụ cho lập trình viên
Phase 3 2027 Cập nhật dữ liệu liên tục, công cụ AI nâng cao cho doanh nghiệp

Tại AI Day 2026 (16/4), ViGen được nhắc đến như một trong những sáng kiến trọng tâm trong chiến lược hạ tầng AI Việt Nam của NIC và Meta.


5. Ai có thể dùng được ngay?

Lập trình viên và nhà phát triển AI: Tải bộ dữ liệu Vi-Primer 1.0 về để huấn luyện hoặc fine-tune mô hình AI tiếng Việt riêng. Giấy phép ODC-By 1.0 cho phép dùng trong sản phẩm thương mại.

Startup AI: Thay vì tự thu thập dữ liệu tiếng Việt (tốn kém, phức tạp về bản quyền), dùng ViGen làm nền tảng và tập trung vào xây dựng sản phẩm.

Nhà nghiên cứu và học viên: Bộ 10 framework đánh giá AI tiếng Việt (phát hành trong 2026) sẽ là chuẩn chung để so sánh hiệu suất các mô hình AI nói tiếng Việt.


Điều này ảnh hưởng gì đến bạn?

Nếu bạn chỉ là người dùng AI thông thường — bạn sẽ không thấy tác động ngay hôm nay. Nhưng trong 1-2 năm tới:

AI sẽ hiểu tiếng Việt đúng hơn. Không còn những câu trả lời "đúng nghĩa đen nhưng sai ngữ cảnh". Không còn dịch thuật nghe lạ tai. AI sẽ hiểu khi bạn nói "ăn cơm chưa?" không phải câu hỏi về bữa ăn mà là câu chào hỏi xã giao.

Startup AI Việt Nam sẽ có lợi thế. Khi có dữ liệu tiếng Việt chất lượng cao miễn phí, chi phí xây dựng AI tiếng Việt giảm đáng kể. Điều đó có nghĩa là nhiều sản phẩm AI tiếng Việt tốt hơn sẽ xuất hiện — phục vụ người Việt tốt hơn.

Test thực tế cho mình: Hãy thử cùng một câu hỏi với ChatGPT bằng tiếng Anh và tiếng Việt — bạn sẽ thấy sự khác biệt. ViGen là dự án đang cố thu hẹp khoảng cách đó.


Số liệu & thống kê

Chỉ số Con số Nguồn
Dữ liệu thô thu thập 150 tỷ token VietnamPlus
Dữ liệu chất lượng cao 50 tỷ token VietnamPlus
Tương đương sách ~385.000 cuốn Ước tính
Giấy phép ODC-By 1.0 Dự án ViGen
Framework đánh giá AI (2026) 10 bộ Lộ trình ViGen
Số giải pháp dự thi từ 2022 750+ từ 20+ quốc gia VietnamPlus

Sources

# Title URL Ghi chú
1 Dự án ViGen - VietnamPlus https://www.vietnamplus.vn/du-an-vigen-tao-ra-nen-tang-du-lieu-tieng-viet-ma-nguon-mo-cho-ai-post1020595.vnp Nguồn VI, chi tiết dự án
2 NIC và Meta bắt tay - Doanh nghiệp hội nhập https://doanhnghiephoinhap.vn/nic-va-meta-bat-tay-phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-112223.html Nguồn VI, thông tin hợp tác
3 ViGen - Thời báo Tài chính https://thoibaotaichinhvietnam.vn/vigen-bien-ai-thanh-cong-cu-manh-me-cho-nguoi-viet-172411.html Nguồn VI, phân tích
4 Phát triển dữ liệu mã nguồn mở - Bộ KH&CN https://mst.gov.vn/phat-trien-du-lieu-ma-nguon-mo-cho-ai-viet-nam-197251118154132797.htm Nguồn VI, chính thức
5 Vietnam Open Data Ecosystem https://www.vietnam.vn/en/phien-ban-thu-nghiem-dau-tien-he-sinh-thai-ai-viet-nam-du-lieu-mo-tieng-viet Nguồn EN, tổng quan

Bài viết liên quan

Xem thêm
Tin tức AI

1 tỷ USD cho nội dung AI kém chất lượng? Tại sao Disney chi mạnh tay và đưa các nhân vật mang tính biểu tượng của mình lên OpenAI

Vào đầu năm 2026, bạn sẽ có thể tạo video AI có các nhân vật yêu thích của mình từ Marvel, Star Wars và Pixar.

Tin tức AI

300.000 dáng nhân vật chỉ trong tích tắc với AI: Chuyến thăm Disney của tôi đã hé lộ một thực tế mới của hoạt hình

Disney đã xem xét "hàng nghìn công ty AI" trước khi hỗ trợ một công ty cho phép các họa sĩ hoạt hình kiểm soát đầu ra.

Tin tức AI

300.000 tư thế hoạt hình AI trong tích tắc: Chuyến thăm Disney của tôi và thực tế mới cho phim hoạt hình

Disney đã xem xét "hàng nghìn công ty AI" trước khi ủng hộ một công ty giữ cho các nhà làm phim hoạt hình ở vị trí chủ đạo.