Mô hình Qwen mới của Alibaba sẽ tăng cường mạnh mẽ các công cụ chuyển đổi giọng nói AI

Các công cụ chuyển đổi giọng nói AI sắp trở nên cạnh tranh hơn rất nhiều khi nhóm Qwen của Alibaba ra mắt mô hình Qwen3-ASR-Flash.

Được xây dựng dựa trên trí tuệ Qwen3-Omni mạnh mẽ và được đào tạo bằng một bộ dữ liệu khổng lồ với hàng chục triệu giờ dữ liệu giọng nói, đây không chỉ là một mô hình nhận dạng giọng nói AI khác. Nhóm phát triển cho biết nó được thiết kế để mang lại hiệu suất cực kỳ chính xác, ngay cả khi đối mặt với môi trường âm thanh phức tạp hoặc các mẫu ngôn ngữ khó.

Vậy, nó đối chọi với các đối thủ như thế nào? Dữ liệu hiệu suất, từ các thử nghiệm được tiến hành vào tháng 8 năm 2025, cho thấy nó khá ấn tượng.

Trong một thử nghiệm công khai cho tiếng Trung tiêu chuẩn, Qwen3-ASR-Flash đạt tỷ lệ lỗi chỉ 3,97 phần trăm, bỏ xa các đối thủ như Gemini-2.5-Pro (8,98%) và GPT4o-Transcribe (15,72%) và hứa hẹn sẽ tạo ra các công cụ chuyển đổi giọng nói AI cạnh tranh hơn.

Qwen3-ASR-Flash cũng chứng tỏ khả năng xử lý tốt các giọng tiếng Trung, với tỷ lệ lỗi 3,48 phần trăm. Trong tiếng Anh, nó đạt 3,81 phần trăm đầy cạnh tranh, một lần nữa dễ dàng đánh bại 7,63 phần trăm của Gemini và 8,45 phần trăm của GPT4o.

Nhưng điểm thực sự gây ấn tượng là ở một lĩnh vực nổi tiếng khó khăn: chuyển đổi lời nhạc.

Khi được giao nhiệm vụ nhận diện lời bài hát, Qwen3-ASR-Flash đạt tỷ lệ lỗi chỉ 4,51 phần trăm, tốt hơn nhiều so với các đối thủ của nó. Khả năng hiểu nhạc này đã được xác nhận trong các thử nghiệm nội bộ trên các bài hát hoàn chỉnh, nơi nó đạt tỷ lệ lỗi 9,96 phần trăm; một cải thiện lớn so với 32,79 phần trăm của Gemini-2.5-Pro và 58,59 phần trăm của GPT4o-Transcribe.

Kiểm tra tỷ lệ lỗi ASR của Qwen3-ASR-Flash của Alibaba Qwen so sánh với các mô hình nhận dạng giọng nói AI phổ biến khác được sử dụng cho các công cụ chuyển đổi giọng nói.

Ngoài độ chính xác ấn tượng, mô hình còn mang đến một số tính năng đổi mới cho các công cụ chuyển đổi giọng nói AI thế hệ tiếp theo. Một trong những thay đổi lớn nhất là khả năng điều chỉnh ngữ cảnh linh hoạt.

Quên đi những ngày phải định dạng danh sách từ khóa một cách tỉ mỉ, hệ thống này cho phép người dùng cung cấp cho mô hình văn bản nền theo hầu hết mọi định dạng để nhận được kết quả tùy chỉnh. Bạn có thể cung cấp một danh sách từ khóa đơn giản, toàn bộ tài liệu, hoặc thậm chí là sự kết hợp lộn xộn của cả hai.

Quá trình này loại bỏ mọi nhu cầu tiền xử lý phức tạp thông tin ngữ cảnh. Mô hình đủ thông minh để sử dụng ngữ cảnh nhằm nâng cao độ chính xác; tuy nhiên, hiệu suất chung của nó hầu như không bị ảnh hưởng ngay cả khi văn bản bạn cung cấp hoàn toàn không liên quan.

Rõ ràng tham vọng của Alibaba đối với mô hình AI này là trở thành một công cụ chuyển đổi giọng nói toàn cầu. Dịch vụ này cung cấp khả năng chuyển đổi giọng nói chính xác từ một mô hình duy nhất hỗ trợ 11 ngôn ngữ, hoàn chỉnh với nhiều phương ngữ và giọng điệu.

Hỗ trợ cho tiếng Trung đặc biệt sâu rộng, bao gồm tiếng Quan thoại ngoài các phương ngữ chính như tiếng Quảng Đông, tiếng Tứ Xuyên, tiếng Mân Nam (Hokkien) và tiếng Ngô.

Đối với người nói tiếng Anh, nó xử lý các giọng Anh, Mỹ và các giọng vùng khác. Danh sách ấn tượng các ngôn ngữ được hỗ trợ khác bao gồm tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Nga, tiếng Nhật, tiếng Hàn và tiếng Ả Rập.

Để hoàn thiện tất cả, mô hình có thể nhận diện chính xác ngôn ngữ nào trong số 11 ngôn ngữ đang được nói và thành thạo trong việc loại bỏ các đoạn không phải giọng nói như im lặng hoặc tiếng ồn xung quanh, đảm bảo đầu ra sạch hơn so với các công cụ chuyển đổi giọng nói AI trước đây.

Mô hình Qwen mới của Alibaba sẽ tăng cường mạnh mẽ các công cụ chuyển đổi giọng nói AI

Bài viết liên quan

Tổng hợp tin AI thế giới 2 tuần cuối tháng 5/2026: Anthropic soán ngôi, Karpathy đổi nhà

So sánh function calling: Gemma 4 vs Qwen 3.5 vs Phi-4-mini – model AI nào gọi tool giỏi nhất?

Nvidia GTC 2026: Jensen Huang ra mắt nền tảng AI agent – Adobe, Salesforce, SAP đều tham gia