Hồi tháng 3 năm ngoái, tôi ngồi họp với một CTO của một công ty fintech khá lớn ở Việt Nam. Anh ta vừa nhận được bill tháng của OpenAI - $47,000 - và mặt trắng ra như tờ giấy.
"Sơn ơi, mình có giải pháp nào không? Mình không ngờ nó lại tốn nhiều vậy."
Tôi hỏi lại: "Anh đang dùng mấy triệu tokens mỗi ngày?"
"Khoảng 15 triệu."
Tôi thở dài. Không phải vì bất ngờ - mà vì câu hỏi "dùng API hay tự host?" là câu hỏi mà nhiều team đặt ra sau khi bill đến, thay vì trước khi đặt bút thiết kế.
Bài này tôi sẽ giúp các bạn trả lời câu hỏi đó trước - cụ thể với Gemma 4, model vừa được Google release đầu tháng 4/2026 với Apache 2.0 license, và ChatGPT API (hay bất kỳ cloud LLM nào có mức giá tương tự).
Gemma 4 là cái gì, và tại sao nó đáng chú ý năm 2026?
Nói ngắn gọn: Gemma 4 là family model open-source mới nhất của Google DeepMind, release ngày 2/4/2026. Điều khác biệt lần này không chỉ là benchmark - mà là license.
Trước đây Gemma 1, 2, 3 đều có license riêng với nhiều hạn chế thương mại. Gemma 4 chuyển sang Apache 2.0 - tức là các bạn có thể dùng thương mại, modify, distribute thoải mái, không cần xin phép Google. Đây là sự thay đổi lớn hơn cả benchmark.
Family Gemma 4 hiện gồm 4 variants:
| Model | Parameters | VRAM (4-bit) | Target |
|---|---|---|---|
| E2B | ~2B | <1.5 GB | Edge, mobile |
| E4B | ~4B | ~2-3 GB | Edge, on-device |
| 26B-A4B (MoE) | 26B total, 4B active | ~18 GB | Production server |
| 31B Dense | 31B | ~20 GB | Production server |
Cái hay ở đây là Gemma 4 26B dùng kiến trúc MoE (Mixture of Experts) - chỉ 4B parameters được activate cho mỗi inference request. Điều này giúp throughput gần bằng model 4B nhưng quality gần bằng model 26B. Benchmark trên NVIDIA DGX Spark cho thấy 23.7 tokens/sec với 26B-A4B, so với 10.6 tokens/sec của 31B Dense (4-bit).
Về chất lượng: 31B Dense đứng #3 open model trên Arena leaderboard, 26B-A4B đứng #6. Trên AIME 2026 (toán nâng cao), 31B đạt 89.2%. Trên coding, 80.0% trên LiveCodeBench v6.
Không phải GPT-4o level - nhưng đủ tốt cho rất nhiều enterprise use cases.
Framework quyết định: 5 câu hỏi không thể bỏ qua
Trước khi tính GPU và RAM, tôi thường hỏi 5 câu này. Câu trả lời sẽ quyết định tất cả.
Câu 1: "Data có được ra ngoài không?"
Đây là câu hỏi không cần tính toán gì - chỉ cần một câu hỏi với legal và compliance team.
- Có data nhạy cảm (thông tin bệnh nhân, hợp đồng tài chính, dữ liệu ngân hàng, bí mật thương mại) → Phải self-host, không có lựa chọn nào khác.
- Data có thể ra ngoài → Tiếp tục hỏi các câu sau.
OpenAI và Anthropic đều có zero-data-retention API và SOC 2 compliance. Nhưng ở nhiều ngành tại Việt Nam - ngân hàng, bảo hiểm, y tế, chính phủ - câu trả lời vẫn là "không" ngay cả khi vendor đảm bảo.
Câu 2: "Volume của bạn là bao nhiêu?"
Điểm gãy đơn giản nhất:
Dưới 2 triệu tokens/ngày → ChatGPT API rẻ hơn
2–10 triệu tokens/ngày → Tùy model, có thể tương đương
Trên 10 triệu tokens/ngày → Self-host rẻ hơn đáng kể
Tính thực tế với GPT-4o mini (rẻ nhất trong family GPT-4) ở mức 10 triệu tokens/ngày:
- API cost: khoảng $300–$450/tháng
- Self-host Gemma 4 26B trên A100: khoảng $800–$1,200/tháng (bare metal) hoặc $400–$600 (spot instance)
Nhưng nếu volume là 50 triệu tokens/ngày:
- API cost: ~$1,500–$2,250/tháng (GPT-4o mini)
- Self-host: vẫn ~$800–$1,200/tháng (infra cost không tăng tuyến tính theo volume)
Break-even thực tế nằm đâu đó 15–20 triệu tokens/ngày cho setup 1 GPU server. Volume càng cao, self-host càng có lợi.
Câu 3: "Task phức tạp đến mức nào?"
Đây là câu hỏi nhiều người hay bỏ qua.
Đơn giản (classify, extract, summarize, FAQ) → Gemma 4 26B đủ tốt
Trung bình (RAG, customer support, code gen) → Gemma 4 31B hoặc hybrid
Phức tạp (complex reasoning, legal analysis, creative writing) → Vẫn cần frontier model
Tôi hay dùng bài test đơn giản: Cho model câu hỏi cần multi-step reasoning. Nếu Gemma 4 trả lời đúng 80%+ - dùng được. Nếu cần 95%+ accuracy cho use case quan trọng - hãy nghĩ lại.
Câu 4: "Team có MLOps capacity không?"
Self-hosting không chỉ là mua GPU và chạy vLLM. Bạn cần:
- Initial setup: 20–40 engineer-hours (cài vLLM, config load balancing, monitoring)
- Ongoing maintenance: 5–10 hours/tháng
- GPU failure handling, patching, scaling khi load tăng đột biến
- Model updates khi có version mới
Với engineering cost $75–$150/hour, tháng đầu tiên có thể tốn thêm $2,000–$6,000 chỉ riêng nhân sự. Nếu team nhỏ dưới 5 người - hãy cẩn thận.
Câu 5: "Latency yêu cầu là bao nhiêu?"
- Interactive (chat, realtime) → cần < 2–3 giây Time-to-First-Token
- Batch processing → latency không quan trọng bằng throughput
Gemma 4 26B-A4B trên A100 với vLLM: Time-to-First-Token khoảng 300–500ms ở concurrency trung bình. ChatGPT API: 500ms–2s tùy load của OpenAI. Khá tương đương, nhưng self-host bạn kiểm soát được SLA.
Cấu hình máy chủ cho 100 CCU (Concurrent Users)
Đây là phần nhiều người hỏi nhất - và cũng là phần tôi muốn nói thẳng nhất.
100 CCU không có nghĩa là 100 requests đồng thời. Cần phân tích thêm:
- 100 CCU kiểu chat (gửi message, đợi response): peak ~20–30 inference requests đồng thời
- 100 CCU kiểu heavy analytics: có thể 80–100 requests thực sự đồng thời
Tôi sẽ tính cho scenario thực tế nhất: chat application, 100 CCU, average 500 tokens/request (input + output), target latency < 5 giây.
Tính throughput cần thiết
100 CCU × 30% active = 30 concurrent requests
30 requests × 500 tokens = 15,000 tokens đang xử lý
Target latency 5s → cần throughput: 15,000 / 5 = 3,000 tokens/sec
Option 1: Gemma 4 26B-A4B (khuyến nghị)
Đây là lựa chọn tối ưu nhất cho production:
Hardware tối thiểu:
- GPU: 1x NVIDIA A100 80GB (hoặc 2x A6000 48GB)
- RAM: 64GB DDR5
- CPU: 16 cores (AMD EPYC hoặc Intel Xeon)
- Storage: 1TB NVMe SSD
- Network: 10Gbps
Hardware khuyến nghị (có headroom scale):
- GPU: 2x NVIDIA A100 80GB (tensor parallel)
- RAM: 128GB DDR5
- CPU: 32 cores
- Storage: 2TB NVMe SSD (RAID 1)
- Network: 25Gbps
Benchmark thực tế (vLLM + Gemma 4 26B-A4B, 1x A100 80GB):
- Throughput: ~2,500–3,500 tokens/sec (mixed workload)
- P50 TTFT: ~350ms
- P99 TTFT: ~800ms
- Max concurrent requests: ~40–60 ổn định
Kết luận: 1 A100 80GB đủ cho 100 CCU với Gemma 4 26B-A4B. 2 A100 nếu muốn safety margin và zero downtime deployment.
Option 2: Gemma 4 31B Dense (khi cần quality cao hơn)
- GPU: 2x NVIDIA A100 80GB (bắt buộc, model quá lớn cho 1 card)
- RAM: 128GB DDR5
- CPU: 32 cores
- Throughput giảm ~40% so với 26B-A4B
- P50 TTFT: ~600ms
Option 3: Budget alternative (không phải production-grade)
Nếu budget hạn chế và có thể chấp nhận latency cao hơn:
- GPU: 2x RTX 4090 24GB (tensor parallel, kém ổn định hơn cho production)
- Gemma 4 26B-A4B với int4 quantization
- Throughput ~1,500–2,000 tokens/sec
- Không khuyến nghị cho production > 50 CCU
Chi phí hàng tháng (cloud)
| Cấu hình | Provider | Giá ước tính/tháng |
|---|---|---|
| 1x A100 80GB | AWS p4d.2xlarge (spot) | $800–$1,200 |
| 1x A100 80GB | GCP a2-highgpu-1g (spot) | $700–$1,000 |
| 2x A100 80GB | AWS p4d.8xlarge | $3,000–$4,000 |
| H100 80GB | AWS p5.xlarge (spot) | $1,200–$1,800 |
So sánh với ChatGPT API cho 100 CCU, ~5 triệu tokens/ngày: ~$450–$900/tháng (GPT-4o mini). Chênh lệch không lớn ở scale này - đây là lý do tôi nói self-host chỉ có lợi rõ ràng khi volume cao hoặc có data sovereignty constraint.
Setup vLLM cho Gemma 4: Quickstart
vLLM có Day 0 support cho Gemma 4. Đây là setup cơ bản:
# Cài đặt
# pip install vllm>=0.6.0
from vllm import LLM, SamplingParams
# Khởi tạo engine với Gemma 4 26B-A4B
llm = LLM(
model="google/gemma-4-26b-it",
tensor_parallel_size=1, # Tăng lên 2 nếu dùng 2 GPU
dtype="bfloat16", # hoặc "float16"
max_model_len=8192, # Context length
gpu_memory_utilization=0.90, # 90% GPU VRAM
max_num_seqs=64, # Max concurrent sequences
)
sampling_params = SamplingParams(
temperature=0.7,
top_p=0.95,
max_tokens=512,
)
# Batch inference
outputs = llm.generate(["Giải thích Clean Architecture cho junior developer"], sampling_params)
for output in outputs:
print(output.outputs[0].text)
# OpenAI-compatible API server (khuyến nghị cho production)
# Chạy: python -m vllm.entrypoints.openai.api_server \
# --model google/gemma-4-26b-it \
# --tensor-parallel-size 1 \
# --max-num-seqs 64 \
# --host 0.0.0.0 \
# --port 8000
# Client code (drop-in replacement cho OpenAI SDK)
from openai import OpenAI
client = OpenAI(
base_url="http://your-server:8000/v1",
api_key="not-needed", # vLLM không cần API key (thêm auth layer riêng)
)
response = client.chat.completions.create(
model="google/gemma-4-26b-it",
messages=[
{"role": "user", "content": "Tư vấn architecture cho hệ thống 100K DAU"}
],
max_tokens=1024,
stream=True, # Streaming quan trọng cho UX
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
Điều tôi thích nhất ở đây: vLLM expose API theo chuẩn OpenAI. Nghĩa là nếu bạn đang dùng OpenAI SDK, chỉ cần thay base_url là migrate sang self-hosted Gemma 4 - không cần đổi một dòng business logic nào.
Khi nào KHÔNG nên dùng Gemma 4 self-hosted
Tôi hay nói: biết khi nào nên dùng quan trọng, nhưng biết khi nào KHÔNG nên dùng còn quan trọng hơn.
Đừng self-host nếu:
- Team nhỏ, không có DevOps/MLOps: GPU maintenance, outages lúc 2 giờ sáng, model updates - tất cả sẽ rơi vào người nào đó trong team. Đừng để cả team mất ngủ vì một GPU server.
- Volume thấp (< 5 triệu tokens/ngày): Break-even point chưa đạt, tốn thêm effort mà không tiết kiệm.
- Cần frontier model quality: Gemma 4 31B tốt, nhưng nếu use case của bạn là viết proposal, phân tích pháp lý phức tạp, creative content high-end - GPT-4o hay Claude Opus vẫn tốt hơn rõ rệt.
- Prototype/MVP stage: Đừng tốn thời gian setup infra khi chưa biết sản phẩm có work không. Dùng API, ship nhanh, validate, rồi mới optimize.
- Cần multimodal nặng (video, audio phức tạp): Gemma 4 có multimodal capability, nhưng cho heavy video/audio processing ở production scale, ecosystem của GPT-4o/Gemini vẫn mature hơn.
Decision Framework tóm gọn
Data nhạy cảm?
→ CÓ: Self-host Gemma 4 (bắt buộc)
→ KHÔNG: tiếp tục...
Volume > 15M tokens/ngày?
→ CÓ: Self-host (rẻ hơn đáng kể)
→ KHÔNG: tiếp tục...
Team có MLOps capacity?
→ KHÔNG: dùng ChatGPT API
→ CÓ: tiếp tục...
Task quality: Gemma 4 đáp ứng được benchmark?
→ CÓ: Self-host Gemma 4
→ KHÔNG: ChatGPT API hoặc hybrid
Thực tế là nhiều enterprise sẽ cần hybrid: Gemma 4 self-hosted cho bulk tasks + ChatGPT API cho high-complexity tasks cần frontier quality. Router giữa hai hệ thống này là một bài toán thú vị - tôi đã viết về nó trong bài Multi-LLM strategy.
Bài học từ anh bạn CTO fintech
Quay lại câu chuyện đầu bài - anh CTO với bill $47,000/tháng. Sau khi phân tích, chúng tôi làm thế này:
- Migrate 70% volume (các task phân loại, summarize, extract) sang Llama 3 70B self-hosted trên 4x A100 (lúc đó Gemma 4 chưa ra)
- Giữ lại 30% volume (phân tích hợp đồng, edge cases) cho Claude API
- Kết quả: bill tháng sau còn $8,000 - giảm 83%
Nhưng điều anh ta không ngờ là có thêm một chi phí ẩn: 2 engineer bận full-time 3 tuần đầu để setup infra, tune performance, xử lý GPU issues. Tính ra "hidden cost" khoảng $15,000 trong tháng đầu. Tháng thứ 2 trở đi thì ổn định.
"Payback period khoảng 2 tháng" - anh ta kết luận. Hợp lý với scale đó. Nhưng nếu volume chỉ 1/5, con số này sẽ là 10 tháng - và câu trả lời hoàn toàn khác.
Tổng kết
Gemma 4 với Apache 2.0 license là một thay đổi game-changing cho enterprise AI năm 2026. Nhưng "có thể dùng free" không đồng nghĩa với "nên dùng".
Self-host Gemma 4 khi: data nhạy cảm, volume cao (>15M tokens/ngày), team có capacity.
Dùng ChatGPT API khi: prototype stage, volume thấp, cần frontier model quality, team nhỏ không có MLOps.
Cấu hình cho 100 CCU: 1x A100 80GB + vLLM + Gemma 4 26B-A4B là sweet spot - đủ throughput, latency chấp nhận được, cost reasonable.
Câu hỏi không phải "Gemma 4 hay ChatGPT API?" - mà là "Context của dự án tôi là gì?".
Các bạn đang ở stage nào - prototype hay production? Và câu hỏi về data sovereignty có là blocker với dự án của bạn không? Comment để mình biết :)
/Son Do - believe in basic
#1percentbetter #AIArchitecture #Gemma4 #LLM #EnterpriseAI #SelfHostedLLM #vLLM