Nội dung chính
1. Nhắc nhanh: "model collapse" là gì?
Trước khi so sánh, nhắc lại nhanh để không bị lạc:
Model collapse = hiện tượng AI học từ nội dung AI tạo ra → chất lượng giảm dần → giống photocopy nhiều lần, ảnh ngày càng nhòe.
74% nội dung web mới hiện nay là AI-generated. Nếu các công ty AI tiếp tục dùng web làm dữ liệu huấn luyện mà không lọc → họ đang cho AI "ăn" nội dung AI chất lượng thấp → vòng lặp suy giảm.
Vấn đề thật. Ba ông lớn đang xử lý nó — theo 3 hướng khác nhau.
2. OpenAI: mua dữ liệu người thật + giới hạn tỷ lệ dữ liệu tổng hợp
Chiến lược chính: Không dùng web-scraping là nguồn chính — thay bằng hợp đồng mua nội dung từ nhà xuất bản và nền tảng lớn.
Đã làm được:
- Ký hợp đồng dữ liệu với Reddit, News Corp và nhiều tổ chức tin tức
- Giới hạn tỷ lệ dữ liệu tổng hợp ở mức ~30% trong tập huấn luyện
- Dùng chỉ số đa dạng để đảm bảo dữ liệu tổng hợp không đồng nhất
Điểm tôi thích: Đây là giải pháp đang ở production — không phải nghiên cứu trên giấy. Thỏa thuận với Reddit/News Corp là thật, dữ liệu thật đang được dùng.
Điểm tôi không thích: Mô hình này tốn kém và phụ thuộc vào bên thứ ba. Nếu nhà xuất bản tăng giá hoặc rút khỏi thỏa thuận → OpenAI bị ảnh hưởng ngay. Và ~30% dữ liệu tổng hợp có thể không đủ dài hạn khi nhu cầu tăng.
3. Anthropic: sửa hạ tầng bên trong, không chờ dữ liệu tốt hơn
Chiến lược chính: Vấn đề chất lượng Claude không đến từ dữ liệu xấu — mà từ lỗi kỹ thuật trong quá trình huấn luyện. Sửa hạ tầng trước.
Đã làm được:
- Phát hiện và sửa: lỗi cấu hình TPU, lỗi compiler, lỗi định tuyến token
- Chuyển từ phép tính gần đúng sang chính xác (fp32) — chậm hơn nhưng đáng tin hơn
- Phát hành benchmark hằng ngày về khả năng lập trình của Claude — minh bạch với người dùng
- Công bố postmortem chi tiết về các sự cố chất lượng gần đây
Điểm tôi thích: Đây là tinh thần "sửa gốc rễ, không che triệu chứng". Postmortem công khai cho thấy sự trung thực với người dùng — không phủ nhận như OpenAI đã từng làm với báo cáo Stanford.
Điểm tôi không thích: Hạ tầng ổn định rồi — nhưng dữ liệu ô nhiễm vẫn là vấn đề dài hạn mà Anthropic chưa công bố giải pháp rõ ràng.
4. Google DeepMind: phát hiện ô nhiễm và tinh lọc dữ liệu
Chiến lược chính: Không tránh được dữ liệu tổng hợp — nhưng có thể phát hiện và lọc sạch bằng công nghệ.
Đã làm được:
- Generative Data Refinement (GDR): Dùng AI lớn để "viết lại và làm sạch" dữ liệu gốc — giữ nội dung thật, loại thông tin cá nhân và nội dung có hại
- Bộ test phát hiện ô nhiễm: 1.320 mẫu thử quanh 12 từ khóa đặc biệt để kiểm tra LLM có bị "nhiễm" không
- Cảnh báo rõ: dữ liệu tổng hợp không được gán nhãn là "xoáy ốc không đáng tin"
Điểm tôi thích: GDR là giải pháp kỹ thuật thú vị — không chỉ "mua dữ liệu sạch" mà còn tạo ra dữ liệu sạch từ dữ liệu có sẵn. Có thể mở rộng hơn về dài hạn.
Điểm tôi không thích: Vẫn ở giai đoạn nghiên cứu, chưa triển khai ở production. Và sở hữu trí tuệ của dữ liệu "được tinh lọc bởi AI" vẫn là vùng pháp lý mơ hồ.
5. Bảng so sánh tổng hợp
| Tiêu chí | OpenAI | Anthropic | Google DeepMind |
|---|---|---|---|
| Hướng tiếp cận | Mua dữ liệu người thật | Sửa hạ tầng huấn luyện | Lọc và tinh chế dữ liệu |
| Trạng thái | Đang dùng thực tế ✅ | Đã ổn định ✅ | Nghiên cứu 🔬 |
| Minh bạch | Thấp (phủ nhận ban đầu) | Cao (postmortem công khai) | Trung bình |
| Chi phí | Cao (phụ thuộc publisher) | Trung bình | Chưa rõ ở quy mô lớn |
| Dài hạn | Rủi ro nếu publisher tăng giá | Phụ thuộc dữ liệu vẫn cần giải quyết | Tiềm năng cao nếu thành công |
| Phù hợp cho người dùng cuối | ChatGPT ổn định ngắn hạn | Claude đáng tin cậy nhất hiện tại | Gemini tiềm năng nhưng cần thời gian |
Test thực tế cho thấy: Chưa có người thắng rõ ràng. Anthropic đang làm tốt nhất về minh bạch và ổn định kỹ thuật. OpenAI có giải pháp dữ liệu thực tế nhất. Google có tầm nhìn dài hạn tốt nhất nhưng chưa chứng minh được.
Điều này ảnh hưởng gì đến bạn?
Nếu bạn đang dùng AI hằng ngày cho công việc — đây là 3 điều thực tế:
1. Không có AI nào "an toàn 100%" với model collapse. Cả ba đều đang trong quá trình xử lý — không phải đã xong.
2. Đa dạng hóa công cụ là khôn ngoan. Dùng ChatGPT cho việc A, Claude cho việc B — không phụ thuộc vào một mô hình duy nhất cho tất cả quyết định quan trọng.
3. Tốt cho: [người dùng thông thường]. Anthropic Claude hiện là lựa chọn đáng tin cậy nhất về chất lượng ổn định nếu bạn cần độ chính xác cao. OpenAI ChatGPT tốt cho sáng tạo và tốc độ. Google Gemini đang cải thiện nhanh và tích hợp tốt với Google Workspace.
Không phù hợp với: Dùng bất kỳ AI nào như nguồn thông tin duy nhất cho quyết định tài chính, y tế, pháp lý quan trọng — bất kể công ty nào xử lý model collapse tốt đến đâu.
Số liệu & thống kê
| Con số | Ý nghĩa | Nguồn |
|---|---|---|
| 74% | Web mới chứa nội dung AI-generated (2026) | Tổng hợp nghiên cứu |
| ~30% | Tỷ lệ tối đa dữ liệu tổng hợp OpenAI cho phép | InvisibleTech 2026 |
| 1/1.000 | Chỉ 1 mẫu synthetic kém chất lượng trong 1.000 có thể khởi động suy giảm | Nature 2024 |
| 3 | Số lỗi hạ tầng Anthropic phát hiện và sửa (TPU, compiler, token routing) | Anthropic postmortem |
| 1.320 | Mẫu thử trong bộ test phát hiện ô nhiễm của Google DeepMind | MarkTechPost 2025 |
Sources
| # | Tiêu đề | URL | Ghi chú |
|---|---|---|---|
| 1 | Anthropic Addresses Claude Quality Degradation | https://aronhack.com/anthropic-addresses-claude-quality-degradation-understanding-the-recent-model-output-issues/ | Phân tích Anthropic approach, EN |
| 2 | A Postmortem of Three Recent Issues (Anthropic chính thức) | https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues | Anthropic Engineering blog, EN |
| 3 | Google DeepMind Contamination Detection | https://www.marktechpost.com/2025/04/20/llms-can-be-misled-by-surprising-data-google-deepmind-introduces-new-techniques-to-predict-and-reduce-unintended-knowledge-contamination/ | MarkTechPost 4/2025, EN |
| 4 | AI Training in 2026: Anchoring Synthetic Data in Human Truth | https://invisibletech.ai/blog/ai-training-in-2026-anchoring-synthetic-data-in-human-truth/ | InvisibleTech, OpenAI strategy, EN |
| 5 | Why Synthetic Data Is Taking Over in 2025 | https://humansintheloop.org/why-synthetic-data-is-taking-over-in-2025-solving-ais-data-crisis/ | Humans in the Loop, EN |
| 6 | Stanford: ChatGPT Getting Dumber | https://futurism.com/the-byte/stanford-chatgpt-getting-dumber | Futurism, bối cảnh vấn đề, EN |