WEBSITE ĐANG PHÁT TRIỂN

Mistral phát hành Voxtral, mô hình AI âm thanh mã nguồn mở đầu tiên của hãng

Startup Mistral của Pháp đã tham gia vào cuộc đua âm thanh với Voxtral, mô hình mở đầu tiên của hãng, nhằm thách thức sự thống trị của các hệ thống doanh nghiệp đóng bằng các lựa chọn thay thế mã nguồn mở.

<p>Mistral phát hành Voxtral, mô hình AI âm thanh mã nguồn mở đầu tiên của hãng</p>

Khi các hệ thống AI ngày càng trở nên mạnh mẽ hơn, giọng nói nhanh chóng trở thành cách mặc định để chúng ta giao tiếp với máy móc. Startup AI của Pháp Mistral đã tham gia vào cuộc đua âm thanh với mô hình mở đầu tiên của mình, nhằm thách thức sự thống trị của các hệ thống doanh nghiệp đóng bằng các lựa chọn thay thế mã nguồn mở.  

Vào thứ Ba, Mistral đã công bố phát hành Voxtral, dòng mô hình âm thanh đầu tiên của hãng dành cho doanh nghiệp.

Công ty đang quảng bá Voxtral là mô hình mở đầu tiên có khả năng triển khai “trí tuệ giọng nói thực sự hữu ích trong sản xuất.”

Nói cách khác, các nhà phát triển sẽ không còn phải lựa chọn giữa một hệ thống mở, giá rẻ nhưng kém hiệu quả trong việc sao chép và không thực sự hiểu những gì được nói, với một hệ thống hoạt động tốt nhưng bị đóng, khiến nhà phát triển phải trả chi phí cao hơn và ít quyền kiểm soát triển khai hơn. 

Đối với doanh nghiệp, điều đó có nghĩa là Voxtral cung cấp một giải pháp thay thế phải chăng mà công ty tuyên bố có giá “chưa bằng một nửa” so với các giải pháp tương đương.

Souce:Mistral

Mistral cho biết Voxtral có thể sao chép tối đa 30 phút âm thanh. Nhờ nền tảng LLM, Mistral Small 3.1, nó có thể hiểu tới 40 phút, cho phép người dùng đặt câu hỏi về nội dung âm thanh, tạo bản tóm tắt hoặc biến lệnh thoại thành các hành động trong thời gian thực như gọi API hoặc chạy các hàm. Voxtral cũng đa ngôn ngữ, với khả năng sao chép và hiểu các ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Đức, tiếng Hà Lan và tiếng Ý.

Công ty đang cung cấp hai biến thể của “mô hình hiểu giọng nói” của mình. Thứ nhất, Voxtral Small, có 24 tỷ tham số cho các triển khai quy mô sản xuất và cạnh tranh với ElevenLabs Scribe, GPT-4o-mini và Gemini 2.5 Flash. 

Thứ hai, Voxtral Mini, có 3 tỷ tham số cho các triển khai cục bộ và biên. Ngoài ra còn có một phiên bản API nhanh, cực kỳ rẻ, tinh gọn của mô hình 3 tỷ tham số mang tên Voxtral Mini Transcribe, được tối ưu hóa cho các trường hợp sử dụng chỉ sao chép và hứa hẹn sẽ vượt trội hơn OpenAI Whisper với giá chưa bằng một nửa.

Người dùng có thể dùng thử Voxtral miễn phí bằng cách tải API trên Hugging Face hoặc thử nghiệm các mô hình trong chatbot Le Chat của Mistral. Theo công ty, việc tích hợp API vào các ứng dụng có giá từ 0,001 USD mỗi phút. 

Sự ra mắt này diễn ra một tháng sau khi Mistral công bố Magistral, dòng mô hình suy luận đầu tiên của hãng hoạt động bằng cách giải quyết vấn đề từng bước để cải thiện độ tin cậy. 

Mistral, một trong những công ty AI hàng đầu châu Âu, nổi tiếng với việc ủng hộ các mô hình AI mã nguồn mở. Đầu tháng này, TechCrunch đưa tin rằng công ty đang đàm phán để huy động tới 1 tỷ USD vốn cổ phần từ các nhà đầu tư như quỹ MGX của Abu Dhabi.


Bài viết liên quan

Xem thêm
Tin tức AI

Tổng hợp tin AI thế giới 2 tuần cuối tháng 5/2026: Anthropic soán ngôi, Karpathy đổi nhà

Hai tuần cuối tháng 5/2026 là giai đoạn đáng ghi nhớ trong lịch sử AI: lần đầu tiên Anthropic vượt OpenAI về thị phần doanh nghiệp Mỹ (34,4% so với 32,3%), đồng sáng lập OpenAI Andrej Karpathy chuyển sang Anthropic, và hàng loạt sản phẩm AI mới ra mắt. Đây là 6 tin quan trọng nhất bạn cần biết.

Tin tức AI

So sánh function calling: Gemma 4 vs Qwen 3.5 vs Phi-4-mini – model AI nào gọi tool giỏi nhất?

Ba model AI open source tốt nhất hiện nay để build AI agent chạy local là Gemma 4 (Google), Qwen 3.5 (Alibaba) và Phi-4-mini (Microsoft) – đều hỗ trợ function calling, đều chạy được trên laptop. Nhưng mỗi model mạnh ở một việc khác nhau: Gemma 4 gọi tool chính xác nhất, Qwen 3.5 reasoning giỏi nhất, Phi-4-mini nhẹ nhất. Bài này tôi sẽ so sánh thực tế để bạn chọn đúng model cho đúng việc.

Tin tức AI

Nvidia GTC 2026: Jensen Huang ra mắt nền tảng AI agent – Adobe, Salesforce, SAP đều tham gia

Tại sự kiện GTC 2026, CEO Nvidia Jensen Huang giới thiệu Agent Toolkit – bộ công cụ open-source để doanh nghiệp xây dựng AI agent tự hành. Điều đáng nói: 17 công ty phần mềm lớn nhất thế giới – từ Adobe, Salesforce, SAP đến Siemens – đều cam kết tham gia. Nvidia đang không chỉ bán chip – họ muốn làm "hệ điều hành" cho toàn bộ kỷ nguyên AI agent.