#du-lieu-ai

Vì sao ChatGPT cũng có thể bị 'thối não'? Hiện tượng AI model degradation

Các mô hình AI như ChatGPT có thể "kém đi" theo thời gian — không phải vì OpenAI cố tình, mà vì chúng đang dần được huấn luyện bằng nội dung do chính AI tạo ra. Stanford đo được GPT-4 có bài kiểm tra giảm từ 97,6% xuống 2,4% độ chính xác chỉ trong 3 tháng. Đây là hiện tượng "model collapse" — và nó ảnh hưởng trực tiếp đến người dùng AI thường xuyên.

ViGen: bộ dữ liệu AI tiếng Việt mã nguồn mở lớn nhất từ trước đến nay — tại sao người Việt cần quan tâm?

ViGen là dự án tạo ra bộ dữ liệu tiếng Việt khổng lồ để huấn luyện AI — do Meta, NIC (Trung tâm Đổi mới Sáng tạo Quốc gia) và AI for Vietnam phối hợp thực hiện, với sự tham gia của NVIDIA và Viettel. Phiên bản đầu tiên Vi-Primer 1.0 đã có 50 tỷ token dữ liệu tiếng Việt chất lượng cao, mã nguồn mở hoàn toàn. Nói thẳng: đây là lý do AI sẽ hiểu tiếng Việt tốt hơn, hiểu văn hóa và ngữ cảnh Việt Nam đúng hơn — và tại sao điều đó quan trọng hơn bạn nghĩ.