WEBSITE ĐANG PHÁT TRIỂN

Claude 3.7 Sonnet - đánh giá chi tiết: có đáng trả tiền?

Claude 3.7 Sonnet (ra mắt tháng 2/2025) là mô hình đầu tiên của Anthropic kết hợp cả lập luận từng bước và trả lời nhanh trong một. Nó dẫn đầu về lập trình và tác vụ phức tạp, nhưng bản miễn phí bị giới hạn - extended thinking chỉ dành cho gói trả phí.

Claude 3.7 Sonnet là gì?

Anthropic ra mắt Claude 3.7 Sonnet vào ngày 25/2/2025, mô tả đây là mô hình "thông minh nhất" của họ tính đến thời điểm đó. Điểm nổi bật lớn nhất: đây là mô hình lai (hybrid reasoning model) đầu tiên của Anthropic - tức là nó có thể hoạt động theo hai chế độ:

  1. Chế độ thông thường: trả lời nhanh như các mô hình cũ
  2. Chế độ extended thinking: dừng lại, suy nghĩ từng bước nội tâm, rồi mới đưa ra câu trả lời

Người dùng có thể chuyển đổi giữa hai chế độ tùy nhu cầu - đây là ưu điểm lớn so với các reasoning model của OpenAI vốn chỉ có một chế độ cố định.


Những điểm mạnh nổi bật

1. Extended thinking - suy nghĩ có thể kiểm soát

Điểm độc đáo của Claude 3.7 là bạn có thể đặt ngân sách suy nghĩ (thinking budget). Qua API, bạn có thể cho Claude biết: "hãy suy nghĩ tối đa N token trước khi trả lời." Điều này giúp cân bằng giữa tốc độ và độ chính xác tùy theo từng tác vụ.

Ngoài ra, khi bật extended thinking, giới hạn output tăng vọt từ 8.192 token lên 64.000 token - đủ để tạo ra toàn bộ một module code, một tài liệu dài, hay một phân tích chi tiết trong một lần chạy.

2. Lập trình vượt trội

Claude 3.7 Sonnet đạt 62,3% trên SWE-bench Verified - bài kiểm tra lập trình thực tế nổi tiếng - so với 49% của Claude 3.5 Sonnet. Đây là mức tăng đáng kể và đưa Claude lên đầu bảng về khả năng sửa lỗi phần mềm thực tế.

Anthropic cũng ra mắt kèm Claude Code - công cụ lập trình riêng biệt dựa trên mô hình này, tích hợp trực tiếp vào terminal.

3. Tác vụ phức tạp và agentic

Trong các bài kiểm tra liên quan đến tác vụ đa bước (agentic tasks):

  • Xử lý yêu cầu khách hàng bán lẻ: 81,2% (tăng từ 71,5%)
  • Xử lý yêu cầu hàng không: 58,4% (tăng gần 10 điểm %)

Claude 3.7 đặc biệt phù hợp cho các workflow phức tạp đòi hỏi nhiều bước suy luận liên tiếp.

4. Giá không đổi so với phiên bản cũ

Dù mạnh hơn đáng kể, Claude 3.7 Sonnet được định giá bằng với các phiên bản trước:

  • $3 / triệu token đầu vào
  • $15 / triệu token đầu ra (bao gồm cả thinking tokens)

Điểm yếu cần lưu ý

  • OpenAI vẫn dẫn trước ở toán học nâng cao, câu hỏi đa ngôn ngữ và visual reasoning
  • Extended thinking chỉ dùng được với gói Claude Pro, Team, Enterprise - người dùng miễn phí không có
  • Với nội dung sáng tạo, phong cách viết và brainstorm, sự khác biệt so với 3.5 Sonnet không rõ ràng
  • Tốc độ ở chế độ extended thinking chậm hơn đáng kể - không phù hợp cho tác vụ cần phản hồi nhanh

Điều này ảnh hưởng gì đến bạn?

Bạn là lập trình viên: Claude 3.7 Sonnet là lựa chọn hàng đầu cho code review, debug, và viết code phức tạp. SWE-bench 62,3% không phải con số marketing - nó đại diện cho khả năng xử lý bug thực tế trong codebase thật.

Bạn đang dùng Claude miễn phí: Bạn vẫn có thể dùng Claude 3.7, nhưng không có extended thinking. Với tác vụ thông thường, sự khác biệt so với 3.5 Sonnet không quá lớn.

Bạn đang cân nhắc Claude Pro ($20/tháng): Nếu công việc của bạn liên quan nhiều đến lập trình, phân tích dữ liệu, hay tác vụ nghiên cứu phức tạp - đáng đầu tư. Nếu chủ yếu viết nội dung thông thường, bản miễn phí đủ dùng.

Bạn là doanh nghiệp dùng API: Mức giá không đổi nhưng hiệu suất tăng mạnh ở coding và agentic tasks - đây là nâng cấp "miễn phí" thực sự.


Số liệu đáng chú ý

  • Ngày ra mắt: 25/2/2025
  • SWE-bench Verified: 62,3% (tăng từ 49% của 3.5 Sonnet)
  • Max output với extended thinking: 64.000 token
  • Thinking budget tối đa: 128.000 token
  • Giá API: $3/$15 per million tokens (input/output)

Sources


Bài viết liên quan

Xem thêm
Chatbot AI

DeepSeek R1 - chatbot miễn phí có thật sự tốt?

DeepSeek R1 là mô hình AI mã nguồn mở từ Trung Quốc, dùng miễn phí, có khả năng suy luận ngang ngửa OpenAI o1 - nhưng thiếu xử lý ảnh và hệ sinh thái còn hạn chế. Đây là lựa chọn đáng thử nếu bạn cần AI lập trình hay toán học mạnh mà không muốn trả phí.

Chatbot AI

ChatGPT vs Claude vs Gemini tháng 2/2026 - ai tốt hơn?

Không có một chatbot AI nào "tốt nhất cho tất cả mọi việc" trong năm 2026. ChatGPT thắng ở đa năng và hệ sinh thái, Claude thắng ở lập trình và viết nội dung dài, Gemini thắng ở tích hợp Google và context window lớn. Nhiều người dùng chuyên nghiệp hiện dùng cả hai hoặc ba công cụ tùy tác vụ.

Chatbot AI

Gemini 2.0 - Google có gì mới so với Gemini 1.5?

Gemini 2.0 Flash (ra mắt tháng 2/2025) là bước nhảy vọt so với Gemini 1.5: nhanh hơn, rẻ hơn, hỗ trợ đa phương thức tốt hơn và đặc biệt có khả năng dùng công cụ tích hợp. Google đang thu hẹp khoảng cách với OpenAI - nhưng chưa hoàn toàn bắt kịp ở mọi mặt.