WEBSITE ĐANG PHÁT TRIỂN

Google Gemma 4: model open source mạnh nhất, giấy phép Apache 2.0 – chạy được trên laptop 16GB

Google DeepMind vừa phát hành Gemma 4 – gia đình model AI open source mới nhất – dưới giấy phép Apache 2.0 (giống như Mistral và Qwen, không còn ràng buộc custom như trước). Gemma 4 có 5 kích thước, từ model siêu nhỏ chạy trên điện thoại đến model 31B cho workstation. Điểm đáng chú ý: model 12B "Unified" chạy hoàn toàn local trên laptop 16GB RAM, xử lý được ảnh, âm thanh, video, và có context window 256K token.

Google Gemma 4: model open source mạnh nhất, giấy phép Apache 2.0 – chạy được trên laptop 16GB

Nội dung chính

1. Giấy phép Apache 2.0 – thay đổi lớn nhất

Trong hai năm qua, dòng Gemma của Google luôn bị "mang tiếng" open source nhưng giấy phép custom có nhiều hạn chế – doanh nghiệp phải qua phòng pháp chế mới dám dùng.

Gemma 4 thay đổi hoàn toàn: giấy phép Apache 2.0 tiêu chuẩn.

  • Không điều khoản custom
  • Không giới hạn "Harmful Use" cần giải thích pháp lý
  • Không hạn chế thương mại hay redistribute

Điều này quan trọng vì: nhiều doanh nghiệp đã chọn Mistral hoặc Qwen thay vì Gemma chỉ vì lý do giấy phép. Giờ rào cản đó không còn.

2. Năm model – từ điện thoại đến workstation

Gemma 4 có 5 kích thước, chia làm 2 nhóm:

Model Kích thước Context Multimodal Dùng cho
E2B 2.3B hiệu dụng / 5.1B tổng 128K Ảnh + Âm thanh Điện thoại, embedded
E4B 4B hiệu dụng / ~9B tổng 128K Ảnh + Âm thanh Laptop, edge device
12B Unified 11.95B 256K Ảnh + Âm thanh + Video Laptop 16GB RAM
26B A4B (MoE) 25.2B tổng / 3.8B active 256K Ảnh + Văn bản Workstation, cloud
31B Dense 31B 256K Ảnh + Văn bản Server, GPU H100

Giải thích nhanh:

  • "E" = Effective parameters – model "chạy như" 2B/4B nhưng thực tế lớn hơn vì kỹ thuật Per-Layer Embeddings (mỗi layer có embedding table riêng)
  • "A4B" = Active 4B – dù tổng 25.2B parameter, mỗi lần inference chỉ dùng 3.8B nhờ kiến trúc Mixture-of-Experts (MoE) với 128 expert nhỏ

3. Model 12B "Unified" – không cần encoder riêng

Điểm đột phá kỹ thuật lớn nhất nằm ở Gemma 4 12B Unified:

Các model multimodal truyền thống dùng encoder riêng cho ảnh và âm thanh – tăng độ trễ và tốn bộ nhớ. Gemma 4 12B loại bỏ hoàn toàn encoder riêng:

  • Ảnh: patch ảnh được chiếu trực tiếp vào embedding space của LLM qua một ma trận 35 million parameter
  • Âm thanh: waveform thô được chiếu trực tiếp, không cần encoder riêng
  • Kết quả: latency thấp hơn, VRAM chỉ cần 16GB, fine-tune toàn bộ system trong một pass

Nói bằng tiếng người: model này "nhìn" và "nghe" trực tiếp, không cần bộ phận trung gian dịch lại.

4. Benchmark – mạnh hơn nhiều so với kích thước

Dù compact, Gemma 4 đạt benchmark ấn tượng:

Model AIME 2026 (toán) LiveCodeBench (code) GPQA Diamond (khoa học)
31B Dense 91.1% 83.4% 85.1%
26B MoE 88.3% 77.1% 82.3%
E4B 42.5% 52.0%
E2B 37.5% 44.0%
Gemma 3 27B (cũ) 20.8% 29.1%

Đáng chú ý: E4B (chạy trên GPU T4) và E2B vượt xa Gemma 3 27B cũ – dù nhỏ hơn gấp nhiều lần – nhờ reasoning capability built-in.

5. Tính năng đáng chú ý khác

  • Context 256K token: xử lý báo cáo tài chính dài, repository code, hoặc transcript họp 1 giờ
  • Thinking mode: model tự lập luận step-by-step trước khi trả lời
  • Function calling native: gọi tool/API tự nhiên, không cần prompt engineering phức tạp
  • Hỗ trợ video: model nhỏ xử lý video có âm thanh (tối đa 60 giây), model lớn xử lý video không âm thanh
  • Transcription: chuyển giọng nói thành văn bản, hỗ trợ dịch thuật – tất cả on-device

6. Tương thích ecosystem

Gemma 4 có hỗ trợ day-0 cho:

  • Hugging Face Transformers, bitsandbytes, PEFT, TRL
  • llama.cpp – chạy local với LM Studio, Jan, Pi coding agent
  • MLX – tối ưu cho Apple Silicon
  • ONNX – chạy trong browser qua transformers.js
  • mistral.rs – engine Rust-native
  • vLLM, SGLang – production serving
  • Google Cloud: Cloud Run (serverless GPU), GKE, Vertex AI Model Garden

Điều này ảnh hưởng gì đến bạn?

Nếu bạn là developer Việt Nam: Gemma 4 với giấy phép Apache 2.0 nghĩa là bạn có thể tải về, fine-tune, deploy thương mại mà không lo pháp lý. Model E4B chạy được trên GPU giá rẻ (T4 trên Google Colab free tier cũng được). Đây là cơ hội tốt để build sản phẩm AI mà không phải trả API fee hàng tháng.

Nếu bạn là doanh nghiệp cần xử lý dữ liệu nhạy cảm: Gemma 4 12B chạy local trên laptop 16GB RAM – nghĩa là dữ liệu tài chính, hợp đồng, hồ sơ bệnh nhân không bao giờ rời khỏi máy. Đây là điểm mà API cloud không làm được. Đặc biệt quan trọng với ngân hàng, bệnh viện, công ty luật tại Việt Nam – những ngành có quy định nghiêm ngặt về bảo mật dữ liệu.

Nếu bạn chỉ tò mò về AI: Gemma 4 cho thấy AI không chỉ tồn tại trên cloud của các "đại gia" – bạn có thể tải model mạnh về máy mình, dùng offline, không cần internet. Tương lai AI không chỉ là "thuê dịch vụ" mà là "tải về và sở hữu."

Số liệu & thống kê

Hạng mục Giá trị
Số model trong gia đình Gemma 4 5 model
Giấy phép Apache 2.0
Context window lớn nhất 256K token
VRAM tối thiểu (12B Unified) 16GB
AIME 2026 (31B Dense) 91.1%
LiveCodeBench (31B Dense) 83.4%
Số expert trong MoE 26B 128 expert
Audio input tối đa 30 giây
Video input tối đa 60 giây (1 fps)
Nền tảng hỗ trợ Hugging Face, llama.cpp, MLX, ONNX, vLLM, mistral.rs

Sources

# Title URL Ghi chú
1 Gemma 4 12B analyzes audio, video — runs locally on 16GB laptop https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop VentureBeat
2 Google releases Gemma 4 under Apache 2.0 https://venturebeat.com/technology/google-releases-gemma-4-under-apache-2-0-and-that-license-change-may-matter VentureBeat
3 Welcome Gemma 4: Frontier multimodal intelligence on device https://huggingface.co/blog/gemma4 HuggingFace blog – nguồn chính

Bài viết liên quan

Xem thêm
Tin tức AI

Tổng hợp tin AI thế giới 2 tuần cuối tháng 5/2026: Anthropic soán ngôi, Karpathy đổi nhà

Hai tuần cuối tháng 5/2026 là giai đoạn đáng ghi nhớ trong lịch sử AI: lần đầu tiên Anthropic vượt OpenAI về thị phần doanh nghiệp Mỹ (34,4% so với 32,3%), đồng sáng lập OpenAI Andrej Karpathy chuyển sang Anthropic, và hàng loạt sản phẩm AI mới ra mắt. Đây là 6 tin quan trọng nhất bạn cần biết.

Tin tức AI

So sánh function calling: Gemma 4 vs Qwen 3.5 vs Phi-4-mini – model AI nào gọi tool giỏi nhất?

Ba model AI open source tốt nhất hiện nay để build AI agent chạy local là Gemma 4 (Google), Qwen 3.5 (Alibaba) và Phi-4-mini (Microsoft) – đều hỗ trợ function calling, đều chạy được trên laptop. Nhưng mỗi model mạnh ở một việc khác nhau: Gemma 4 gọi tool chính xác nhất, Qwen 3.5 reasoning giỏi nhất, Phi-4-mini nhẹ nhất. Bài này tôi sẽ so sánh thực tế để bạn chọn đúng model cho đúng việc.

Tin tức AI

Nvidia GTC 2026: Jensen Huang ra mắt nền tảng AI agent – Adobe, Salesforce, SAP đều tham gia

Tại sự kiện GTC 2026, CEO Nvidia Jensen Huang giới thiệu Agent Toolkit – bộ công cụ open-source để doanh nghiệp xây dựng AI agent tự hành. Điều đáng nói: 17 công ty phần mềm lớn nhất thế giới – từ Adobe, Salesforce, SAP đến Siemens – đều cam kết tham gia. Nvidia đang không chỉ bán chip – họ muốn làm "hệ điều hành" cho toàn bộ kỷ nguyên AI agent.