Google Gemma 4 ra mắt – Apache 2.0, multimodal, chạy local trên laptop

Nội dung chính

1. Giấy phép Apache 2.0 – thay đổi lớn nhất

Trong hai năm qua, dòng Gemma của Google luôn bị "mang tiếng" open source nhưng giấy phép custom có nhiều hạn chế – doanh nghiệp phải qua phòng pháp chế mới dám dùng.

Gemma 4 thay đổi hoàn toàn: giấy phép Apache 2.0 tiêu chuẩn.

Không điều khoản custom
Không giới hạn "Harmful Use" cần giải thích pháp lý
Không hạn chế thương mại hay redistribute

Điều này quan trọng vì: nhiều doanh nghiệp đã chọn Mistral hoặc Qwen thay vì Gemma chỉ vì lý do giấy phép. Giờ rào cản đó không còn.

2. Năm model – từ điện thoại đến workstation

Gemma 4 có 5 kích thước, chia làm 2 nhóm:

Model	Kích thước	Context	Multimodal	Dùng cho
E2B	2.3B hiệu dụng / 5.1B tổng	128K	Ảnh + Âm thanh	Điện thoại, embedded
E4B	4B hiệu dụng / ~9B tổng	128K	Ảnh + Âm thanh	Laptop, edge device
12B Unified	11.95B	256K	Ảnh + Âm thanh + Video	Laptop 16GB RAM
26B A4B (MoE)	25.2B tổng / 3.8B active	256K	Ảnh + Văn bản	Workstation, cloud
31B Dense	31B	256K	Ảnh + Văn bản	Server, GPU H100

Giải thích nhanh:

"E" = Effective parameters – model "chạy như" 2B/4B nhưng thực tế lớn hơn vì kỹ thuật Per-Layer Embeddings (mỗi layer có embedding table riêng)
"A4B" = Active 4B – dù tổng 25.2B parameter, mỗi lần inference chỉ dùng 3.8B nhờ kiến trúc Mixture-of-Experts (MoE) với 128 expert nhỏ

3. Model 12B "Unified" – không cần encoder riêng

Điểm đột phá kỹ thuật lớn nhất nằm ở Gemma 4 12B Unified:

Các model multimodal truyền thống dùng encoder riêng cho ảnh và âm thanh – tăng độ trễ và tốn bộ nhớ. Gemma 4 12B loại bỏ hoàn toàn encoder riêng:

Ảnh: patch ảnh được chiếu trực tiếp vào embedding space của LLM qua một ma trận 35 million parameter
Âm thanh: waveform thô được chiếu trực tiếp, không cần encoder riêng
Kết quả: latency thấp hơn, VRAM chỉ cần 16GB, fine-tune toàn bộ system trong một pass

Nói bằng tiếng người: model này "nhìn" và "nghe" trực tiếp, không cần bộ phận trung gian dịch lại.

4. Benchmark – mạnh hơn nhiều so với kích thước

Dù compact, Gemma 4 đạt benchmark ấn tượng:

Model	AIME 2026 (toán)	LiveCodeBench (code)	GPQA Diamond (khoa học)
31B Dense	91.1%	83.4%	85.1%
26B MoE	88.3%	77.1%	82.3%
E4B	42.5%	52.0%	–
E2B	37.5%	44.0%	–
Gemma 3 27B (cũ)	20.8%	29.1%	–

Đáng chú ý: E4B (chạy trên GPU T4) và E2B vượt xa Gemma 3 27B cũ – dù nhỏ hơn gấp nhiều lần – nhờ reasoning capability built-in.

5. Tính năng đáng chú ý khác

Context 256K token: xử lý báo cáo tài chính dài, repository code, hoặc transcript họp 1 giờ
Thinking mode: model tự lập luận step-by-step trước khi trả lời
Function calling native: gọi tool/API tự nhiên, không cần prompt engineering phức tạp
Hỗ trợ video: model nhỏ xử lý video có âm thanh (tối đa 60 giây), model lớn xử lý video không âm thanh
Transcription: chuyển giọng nói thành văn bản, hỗ trợ dịch thuật – tất cả on-device

6. Tương thích ecosystem

Gemma 4 có hỗ trợ day-0 cho:

Hugging Face Transformers, bitsandbytes, PEFT, TRL
llama.cpp – chạy local với LM Studio, Jan, Pi coding agent
MLX – tối ưu cho Apple Silicon
ONNX – chạy trong browser qua transformers.js
mistral.rs – engine Rust-native
vLLM, SGLang – production serving
Google Cloud: Cloud Run (serverless GPU), GKE, Vertex AI Model Garden

Điều này ảnh hưởng gì đến bạn?

Nếu bạn là developer Việt Nam: Gemma 4 với giấy phép Apache 2.0 nghĩa là bạn có thể tải về, fine-tune, deploy thương mại mà không lo pháp lý. Model E4B chạy được trên GPU giá rẻ (T4 trên Google Colab free tier cũng được). Đây là cơ hội tốt để build sản phẩm AI mà không phải trả API fee hàng tháng.

Nếu bạn là doanh nghiệp cần xử lý dữ liệu nhạy cảm: Gemma 4 12B chạy local trên laptop 16GB RAM – nghĩa là dữ liệu tài chính, hợp đồng, hồ sơ bệnh nhân không bao giờ rời khỏi máy. Đây là điểm mà API cloud không làm được. Đặc biệt quan trọng với ngân hàng, bệnh viện, công ty luật tại Việt Nam – những ngành có quy định nghiêm ngặt về bảo mật dữ liệu.

Nếu bạn chỉ tò mò về AI: Gemma 4 cho thấy AI không chỉ tồn tại trên cloud của các "đại gia" – bạn có thể tải model mạnh về máy mình, dùng offline, không cần internet. Tương lai AI không chỉ là "thuê dịch vụ" mà là "tải về và sở hữu."

Số liệu & thống kê

Hạng mục	Giá trị
Số model trong gia đình Gemma 4	5 model
Giấy phép	Apache 2.0
Context window lớn nhất	256K token
VRAM tối thiểu (12B Unified)	16GB
AIME 2026 (31B Dense)	91.1%
LiveCodeBench (31B Dense)	83.4%
Số expert trong MoE 26B	128 expert
Audio input tối đa	30 giây
Video input tối đa	60 giây (1 fps)
Nền tảng hỗ trợ	Hugging Face, llama.cpp, MLX, ONNX, vLLM, mistral.rs

Sources

#	Title	URL	Ghi chú
1	Gemma 4 12B analyzes audio, video — runs locally on 16GB laptop	https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop	VentureBeat
2	Google releases Gemma 4 under Apache 2.0	https://venturebeat.com/technology/google-releases-gemma-4-under-apache-2-0-and-that-license-change-may-matter	VentureBeat
3	Welcome Gemma 4: Frontier multimodal intelligence on device	https://huggingface.co/blog/gemma4	HuggingFace blog – nguồn chính

Google Gemma 4: model open source mạnh nhất, giấy phép Apache 2.0 – chạy được trên laptop 16GB