Nội dung chính
1. Giấy phép Apache 2.0 – thay đổi lớn nhất
Trong hai năm qua, dòng Gemma của Google luôn bị "mang tiếng" open source nhưng giấy phép custom có nhiều hạn chế – doanh nghiệp phải qua phòng pháp chế mới dám dùng.
Gemma 4 thay đổi hoàn toàn: giấy phép Apache 2.0 tiêu chuẩn.
- Không điều khoản custom
- Không giới hạn "Harmful Use" cần giải thích pháp lý
- Không hạn chế thương mại hay redistribute
Điều này quan trọng vì: nhiều doanh nghiệp đã chọn Mistral hoặc Qwen thay vì Gemma chỉ vì lý do giấy phép. Giờ rào cản đó không còn.
2. Năm model – từ điện thoại đến workstation
Gemma 4 có 5 kích thước, chia làm 2 nhóm:
| Model | Kích thước | Context | Multimodal | Dùng cho |
|---|---|---|---|---|
| E2B | 2.3B hiệu dụng / 5.1B tổng | 128K | Ảnh + Âm thanh | Điện thoại, embedded |
| E4B | 4B hiệu dụng / ~9B tổng | 128K | Ảnh + Âm thanh | Laptop, edge device |
| 12B Unified | 11.95B | 256K | Ảnh + Âm thanh + Video | Laptop 16GB RAM |
| 26B A4B (MoE) | 25.2B tổng / 3.8B active | 256K | Ảnh + Văn bản | Workstation, cloud |
| 31B Dense | 31B | 256K | Ảnh + Văn bản | Server, GPU H100 |
Giải thích nhanh:
- "E" = Effective parameters – model "chạy như" 2B/4B nhưng thực tế lớn hơn vì kỹ thuật Per-Layer Embeddings (mỗi layer có embedding table riêng)
- "A4B" = Active 4B – dù tổng 25.2B parameter, mỗi lần inference chỉ dùng 3.8B nhờ kiến trúc Mixture-of-Experts (MoE) với 128 expert nhỏ
3. Model 12B "Unified" – không cần encoder riêng
Điểm đột phá kỹ thuật lớn nhất nằm ở Gemma 4 12B Unified:
Các model multimodal truyền thống dùng encoder riêng cho ảnh và âm thanh – tăng độ trễ và tốn bộ nhớ. Gemma 4 12B loại bỏ hoàn toàn encoder riêng:
- Ảnh: patch ảnh được chiếu trực tiếp vào embedding space của LLM qua một ma trận 35 million parameter
- Âm thanh: waveform thô được chiếu trực tiếp, không cần encoder riêng
- Kết quả: latency thấp hơn, VRAM chỉ cần 16GB, fine-tune toàn bộ system trong một pass
Nói bằng tiếng người: model này "nhìn" và "nghe" trực tiếp, không cần bộ phận trung gian dịch lại.
4. Benchmark – mạnh hơn nhiều so với kích thước
Dù compact, Gemma 4 đạt benchmark ấn tượng:
| Model | AIME 2026 (toán) | LiveCodeBench (code) | GPQA Diamond (khoa học) |
|---|---|---|---|
| 31B Dense | 91.1% | 83.4% | 85.1% |
| 26B MoE | 88.3% | 77.1% | 82.3% |
| E4B | 42.5% | 52.0% | – |
| E2B | 37.5% | 44.0% | – |
| Gemma 3 27B (cũ) | 20.8% | 29.1% | – |
Đáng chú ý: E4B (chạy trên GPU T4) và E2B vượt xa Gemma 3 27B cũ – dù nhỏ hơn gấp nhiều lần – nhờ reasoning capability built-in.
5. Tính năng đáng chú ý khác
- Context 256K token: xử lý báo cáo tài chính dài, repository code, hoặc transcript họp 1 giờ
- Thinking mode: model tự lập luận step-by-step trước khi trả lời
- Function calling native: gọi tool/API tự nhiên, không cần prompt engineering phức tạp
- Hỗ trợ video: model nhỏ xử lý video có âm thanh (tối đa 60 giây), model lớn xử lý video không âm thanh
- Transcription: chuyển giọng nói thành văn bản, hỗ trợ dịch thuật – tất cả on-device
6. Tương thích ecosystem
Gemma 4 có hỗ trợ day-0 cho:
- Hugging Face Transformers, bitsandbytes, PEFT, TRL
- llama.cpp – chạy local với LM Studio, Jan, Pi coding agent
- MLX – tối ưu cho Apple Silicon
- ONNX – chạy trong browser qua transformers.js
- mistral.rs – engine Rust-native
- vLLM, SGLang – production serving
- Google Cloud: Cloud Run (serverless GPU), GKE, Vertex AI Model Garden
Điều này ảnh hưởng gì đến bạn?
Nếu bạn là developer Việt Nam: Gemma 4 với giấy phép Apache 2.0 nghĩa là bạn có thể tải về, fine-tune, deploy thương mại mà không lo pháp lý. Model E4B chạy được trên GPU giá rẻ (T4 trên Google Colab free tier cũng được). Đây là cơ hội tốt để build sản phẩm AI mà không phải trả API fee hàng tháng.
Nếu bạn là doanh nghiệp cần xử lý dữ liệu nhạy cảm: Gemma 4 12B chạy local trên laptop 16GB RAM – nghĩa là dữ liệu tài chính, hợp đồng, hồ sơ bệnh nhân không bao giờ rời khỏi máy. Đây là điểm mà API cloud không làm được. Đặc biệt quan trọng với ngân hàng, bệnh viện, công ty luật tại Việt Nam – những ngành có quy định nghiêm ngặt về bảo mật dữ liệu.
Nếu bạn chỉ tò mò về AI: Gemma 4 cho thấy AI không chỉ tồn tại trên cloud của các "đại gia" – bạn có thể tải model mạnh về máy mình, dùng offline, không cần internet. Tương lai AI không chỉ là "thuê dịch vụ" mà là "tải về và sở hữu."
Số liệu & thống kê
| Hạng mục | Giá trị |
|---|---|
| Số model trong gia đình Gemma 4 | 5 model |
| Giấy phép | Apache 2.0 |
| Context window lớn nhất | 256K token |
| VRAM tối thiểu (12B Unified) | 16GB |
| AIME 2026 (31B Dense) | 91.1% |
| LiveCodeBench (31B Dense) | 83.4% |
| Số expert trong MoE 26B | 128 expert |
| Audio input tối đa | 30 giây |
| Video input tối đa | 60 giây (1 fps) |
| Nền tảng hỗ trợ | Hugging Face, llama.cpp, MLX, ONNX, vLLM, mistral.rs |
Sources
| # | Title | URL | Ghi chú |
|---|---|---|---|
| 1 | Gemma 4 12B analyzes audio, video — runs locally on 16GB laptop | https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop | VentureBeat |
| 2 | Google releases Gemma 4 under Apache 2.0 | https://venturebeat.com/technology/google-releases-gemma-4-under-apache-2-0-and-that-license-change-may-matter | VentureBeat |
| 3 | Welcome Gemma 4: Frontier multimodal intelligence on device | https://huggingface.co/blog/gemma4 | HuggingFace blog – nguồn chính |