zalo
Chat ngay

Mở rộng về cách thức hoạt động của Voice Engine và nghiên cứu an toàn của chúng tôi

Khám phá công nghệ đằng sau mô hình chuyển văn bản thành giọng nói của chúng tôi

Chúng tôi cung cấp thêm thông tin chi tiết về cách Voice Engine hoạt động và nghiên cứu về an toàn của chúng tôi để mọi người luôn cập nhật tiến độ của chúng tôi. Voice Engine là một mô hình có khả năng tạo giọng nói tùy chỉnh.

Điều quan trọng là mọi người trên thế giới hiểu được công nghệ này sẽ đi về đâu, cho dù cuối cùng chúng ta có triển khai rộng rãi hay không. Đó là lý do tại sao chúng tôi muốn giải thích cách thức hoạt động của mô hình, cách chúng tôi sử dụng nó cho nghiên cứu và giáo dục, và cách chúng tôi triển khai các biện pháp an toàn của mình xung quanh nó. Voice Engine hiện chưa có sẵn rộng rãi.

Voice Engine hoạt động như thế nào

Khả năng giọng nói được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói (TTS), có khả năng tạo ra âm thanh giống con người chỉ từ văn bản và 15 giây bài phát biểu mẫu. 

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ duy nhất ngày hôm nay

Hệ thống TTS được phát triển bằng cách giúp mô hình hiểu được sắc thái của giọng nói từ âm thanh và bản ghi âm được ghép nối. Mô hình học cách dự đoán những âm thanh có khả năng xảy ra nhất mà người nói sẽ tạo ra cho một bản ghi âm văn bản nhất định, có tính đến các giọng nói, giọng điệu và phong cách nói khác nhau. Sau đó, mô hình có thể tạo ra không chỉ các phiên bản văn bản được nói mà còn cả các phát ngôn được nói phản ánh cách các loại người nói khác nhau sẽ nói chúng.

Từ đó, việc tạo âm thanh bằng mô hình TTS chỉ cần một mẫu 15 giây từ người nói và văn bản tương ứng. Mô hình không được tinh chỉnh cho bất kỳ người nói cụ thể nào, không có tùy chỉnh mô hình nào liên quan. Thay vào đó, nó sử dụng một quy trình khuếch tán, bắt đầu bằng tiếng ồn ngẫu nhiên và khử nhiễu dần dần để phù hợp chặt chẽ với cách người nói từ mẫu âm thanh 15 giây sẽ diễn đạt văn bản.

Chúng tôi đã phát triển mô hình này trong hơn một năm

Chúng tôi lần đầu tiên phát triển Voice Engine vào cuối năm 2022. Ngay từ đầu, để đánh giá khả năng và hạn chế của mô hình Voice Engine, chúng tôi đã thử nghiệm nội bộ bằng cách kết hợp các mẫu giọng nói công khai và riêng tư. Nguyên mẫu nội bộ này rất cần thiết cho nghiên cứu về sự liên kết và an toàn của chúng tôi, cung cấp thông tin về các biện pháp bảo vệ của chúng tôi và là sự tiếp nối cam kết của chúng tôi trong việc hiểu ranh giới kỹ thuật.

Điều quan trọng là những kết quả này được dành riêng cho mục đích thử nghiệm nội bộ, chứ không phải để đào tạo các mô hình cung cấp năng lượng cho sản phẩm của chúng tôi.

Là một phần của khuôn khổ triển khai lặp đi lặp lại của chúng tôi, nguyên mẫu ban đầu này cũng đóng vai trò quan trọng trong việc giúp các nhà hoạch định chính sách hiểu được khả năng của các mô hình giọng nói tổng hợp. Ví dụ, bắt đầu từ mùa hè năm ngoái, chúng tôi đã cho các nhà hoạch định chính sách toàn cầu ở cấp cao nhất thấy tiềm năng của công nghệ và thảo luận với họ về các rủi ro liên quan. 

Vào tháng 9 năm 2023, chúng tôi đã sử dụng Voice Engine để hỗ trợ tính năng Voice Mode của ChatGPT. Vì những khả năng này cũng mang đến những rủi ro mới nên chúng tôi chỉ triển khai tính năng này cho trường hợp sử dụng cụ thể này. Voice Mode được tạo ra hoàn toàn từ giọng nói thật, được lựa chọn cẩn thận thông qua một quy trình chi tiết bắt đầu vào tháng 5 năm 2023 với sự tham gia của các diễn viên lồng tiếng chuyên nghiệp, các công ty quản lý tài năng, giám đốc tuyển diễn viên và cố vấn trong ngành.

Vào tháng 11 năm 2023, chúng tôi đã phát hành một  API TTS đơn giản cũng được cung cấp bởi Voice Engine. Chúng tôi đã chọn một bản phát hành giới hạn khác, nơi chúng tôi làm việc với các diễn viên lồng tiếng chuyên nghiệp để tạo ra các mẫu âm thanh dài 15 giây để cung cấp năng lượng cho mỗi giọng nói trong sáu giọng nói cài sẵn trong API. Các nhà phát triển có thể xây dựng những giọng nói này vào trang web của họ để đọc to các bài đăng trên blog, chẳng hạn.

Vào tháng 3 năm nay, chúng tôi đã xem trước khả năng tạo giọng nói tùy chỉnh của Voice Engine với một nhóm nhỏ các đối tác đáng tin cậy. Sáng kiến ​​này nhằm mục đích nâng cao nhận thức về khả năng của giọng nói tổng hợp và hỗ trợ các mục tiêu sau:

+ Loại bỏ xác thực bằng giọng nói như một biện pháp bảo mật để truy cập vào tài khoản ngân hàng và các thông tin nhạy cảm khác

+ Khám phá các chính sách bảo vệ việc sử dụng tiếng nói của cá nhân trong AI

+ Giáo dục công chúng hiểu được khả năng và hạn chế của công nghệ AI, bao gồm khả năng nội dung AI lừa đảo

+ Đẩy nhanh quá trình phát triển và áp dụng các kỹ thuật theo dõi nguồn gốc của nội dung nghe nhìn, để luôn rõ ràng khi bạn đang tương tác với người thật hay với AI

Những triển khai quy mô nhỏ này cũng giúp chúng tôi hình thành cách tiếp cận, biện pháp bảo vệ và suy nghĩ về cách Voice Engine có thể được sử dụng vì mục đích tốt đẹp trong nhiều ngành công nghiệp khác nhau.

Xây dựng Voice Engine an toàn là ưu tiên hàng đầu

Chúng tôi tiếp tục hợp tác với các đối tác Hoa Kỳ và quốc tế trong chính phủ, truyền thông, giải trí, giáo dục, xã hội dân sự và nhiều lĩnh vực khác để đảm bảo chúng tôi kết hợp phản hồi của họ trong quá trình xây dựng.

Các đối tác thử nghiệm Voice Engine đã đồng ý với các chính sách sử dụng cấm mạo danh mà không có sự đồng ý và yêu cầu sự chấp thuận rõ ràng từ người nói ban đầu, đồng thời yêu cầu bất kỳ giọng nói nào do AI tạo ra đều phải được tiết lộ cho người nghe. Ngoài ra, các biện pháp an toàn như đóng dấu bản quyền và giám sát chủ động được áp dụng để theo dõi và giám sát việc sử dụng công nghệ.

An toàn giọng nói tổng hợp trong tương lai

Các mô hình đa năng như GPT-4o, với khả năng âm thanh gốc, cho phép tương tác mới mà các mô hình trước đây như Voice Engine không thể làm được. Chúng tôi cũng nhận ra rằng phương thức âm thanh của GPT-4o đưa ra một số rủi ro mới, đặc biệt là trong việc tạo giọng nói. Chúng tôi đang tích cực lập nhóm đỏ GPT-4o để xác định và giải quyết cả những rủi ro đã biết và chưa biết trong nhiều lĩnh vực như tâm lý xã hội, thiên vị và công bằng, và thông tin sai lệch. Chúng tôi đang xây dựng nhiều lớp giảm thiểu như tinh chỉnh hành vi của mô hình, điều chỉnh các hệ thống dựa trên văn bản hiện có cho kiến ​​trúc của GPT-4o và phát triển các bộ phân loại mới.

Phù hợp với cách tiếp cận thận trọng của chúng tôi khi phát hành Voice Engine, chúng tôi sẽ hạn chế đầu ra âm thanh của GPT-4o thành một số giọng nói cài sẵn để phát hành chung. Những giọng nói này có nguồn gốc từ các diễn viên lồng tiếng chuyên nghiệp được lựa chọn thông qua quy trình tuyển chọn được cân nhắc kỹ lưỡng. Chúng tôi sẽ chia sẻ thêm thông tin về các rủi ro liên quan đến âm thanh và biện pháp giảm thiểu trong thẻ hệ thống GPT-4o sắp ra mắt.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !