Giới thiệu Whisper

Chúng tôi đã đào tạo và mở mã nguồn một mạng nơ-ron có tên là Whisper có độ chính xác và mạnh mẽ gần bằng con người trong nhận dạng giọng nói tiếng Anh

Whisper là hệ thống nhận dạng giọng nói tự động (ASR) được đào tạo trên 680.000 giờ dữ liệu đa ngôn ngữ và đa tác vụ được giám sát thu thập từ web. Chúng tôi chứng minh rằng việc sử dụng một tập dữ liệu lớn và đa dạng như vậy dẫn đến khả năng cải thiện độ mạnh mẽ đối với giọng, tiếng ồn nền và ngôn ngữ kỹ thuật. Hơn nữa, nó cho phép phiên âm nhiều ngôn ngữ, cũng như dịch từ các ngôn ngữ đó sang tiếng Anh. Chúng tôi đang cung cấp mã nguồn mở cho các mô hình và mã suy luận để làm nền tảng cho việc xây dựng các ứng dụng hữu ích và cho các nghiên cứu sâu hơn về xử lý giọng nói mạnh mẽ.

Kiến trúc Whisper là một phương pháp tiếp cận đầu cuối đơn giản, được triển khai như một bộ biến đổi mã hóa-giải mã. Âm thanh đầu vào được chia thành các đoạn 30 giây, được chuyển đổi thành phổ log-Mel, sau đó được chuyển vào bộ mã hóa. Bộ giải mã được đào tạo để dự đoán chú thích văn bản tương ứng, xen kẽ với các mã thông báo đặc biệt hướng dẫn mô hình duy nhất thực hiện các tác vụ như nhận dạng ngôn ngữ, dấu thời gian cấp cụm từ, phiên âm giọng nói đa ngôn ngữ và dịch giọng nói sang tiếng Anh.

Tài khoản ChatGPT 4 với nhiều ưu đãi đặc biệt hấp dẫn tại đây!

Các phương pháp tiếp cận hiện có khác thường sử dụng các tập dữ liệu đào tạo âm thanh-văn bản nhỏ hơn, được ghép nối chặt chẽ hơn, hoặc sử dụng tiền đào tạo âm thanh rộng nhưng không có giám sát. Vì Whisper được đào tạo trên một tập dữ liệu lớn và đa dạng và không được tinh chỉnh theo bất kỳ tập dữ liệu cụ thể nào, nên nó không đánh bại được các mô hình chuyên về hiệu suất LibriSpeech, một chuẩn mực cạnh tranh nổi tiếng trong nhận dạng giọng nói. Tuy nhiên, khi chúng tôi đo hiệu suất zero-shot của Whisper trên nhiều tập dữ liệu đa dạng, chúng tôi thấy nó mạnh mẽ hơn nhiều và tạo ra ít lỗi hơn 50% so với các mô hình đó.

Khoảng một phần ba tập dữ liệu âm thanh của Whisper không phải là tiếng Anh và nó được giao nhiệm vụ phiên âm sang ngôn ngữ gốc hoặc dịch sang tiếng Anh. Chúng tôi thấy cách tiếp cận này đặc biệt hiệu quả trong việc học cách dịch giọng nói thành văn bản và vượt trội hơn SOTA có giám sát trên bản dịch COVOST2 sang tiếng Anh zero-shot.

Chúng tôi hy vọng độ chính xác cao và dễ sử dụng của Whisper sẽ cho phép các nhà phát triển thêm giao diện giọng nói vào nhiều ứng dụng hơn. Hãy xem bài báo (mở trong cửa sổ mới), thẻ mô hình (mở trong cửa sổ mới) và mã (mở trong cửa sổ mới) để tìm hiểu thêm chi tiết và dùng thử Whisper.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ