OpenAI cam kết phát triển AI an toàn và có lợi cho nhiều người . Hôm nay, chúng tôi chia sẻ những hiểu biết và kết quả sơ bộ từ bản xem trước quy mô nhỏ của một mô hình có tên là Voice Engine, sử dụng đầu vào văn bản và một mẫu âm thanh 15 giây duy nhất để tạo ra giọng nói tự nhiên giống với người nói ban đầu. Điều đáng chú ý là một mô hình nhỏ với một mẫu 15 giây duy nhất có thể tạo ra giọng nói đầy cảm xúc và chân thực.
Chúng tôi lần đầu tiên phát triển Voice Engine vào cuối năm 2022 và đã sử dụng nó để cung cấp các giọng nói cài đặt sẵn có trong API chuyển văn bản thành giọng nói(mở trong cửa sổ mới)cũng như ChatGPT Voice và Read Aloud . Đồng thời, chúng tôi đang thực hiện một cách tiếp cận thận trọng và có thông tin đối với bản phát hành rộng hơn do khả năng sử dụng sai giọng nói tổng hợp. Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai giọng nói tổng hợp có trách nhiệm và cách xã hội có thể thích ứng với những khả năng mới này. Dựa trên những cuộc trò chuyện này và kết quả của các cuộc thử nghiệm quy mô nhỏ này, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc có nên triển khai công nghệ này ở quy mô lớn hay không và triển khai như thế nào.
Xem thêm: mua tài khoản Chat GPT Plus chính hãng giá rẻ
Ứng dụng ban đầu của Voice Engine
Để hiểu rõ hơn về những ứng dụng tiềm năng của công nghệ này, cuối năm ngoái, chúng tôi đã bắt đầu thử nghiệm riêng với một nhóm nhỏ các đối tác đáng tin cậy. Chúng tôi đã rất ấn tượng với các ứng dụng mà nhóm này đã phát triển. Những triển khai quy mô nhỏ này đang giúp cung cấp thông tin cho cách tiếp cận, biện pháp bảo vệ và suy nghĩ của chúng tôi về cách Voice Engine có thể được sử dụng vì mục đích tốt đẹp trong nhiều ngành công nghiệp khác nhau. Một số ví dụ ban đầu bao gồm:
Cung cấp hỗ trợ đọc cho những người không biết đọc và trẻ em thông qua giọng nói tự nhiên, giàu cảm xúc, đại diện cho nhiều người nói hơn so với giọng nói cài sẵn. Tuổi học tập(mở trong cửa sổ mới), một công ty công nghệ giáo dục dành riêng cho sự thành công trong học tập của trẻ em, đã sử dụng công nghệ này để tạo nội dung lồng tiếng theo kịch bản trước. Họ cũng sử dụng Voice Engine và GPT-4 để tạo phản hồi được cá nhân hóa theo thời gian thực để tương tác với học sinh. Với công nghệ này, Age of Learning đã có thể tạo ra nhiều nội dung hơn cho nhiều đối tượng hơn.
Biên dịch nội dung , như video và podcast, để người sáng tạo và doanh nghiệp có thể tiếp cận nhiều người hơn trên khắp thế giới, trôi chảy và bằng chính giọng nói của họ. Một trong những người áp dụng sớm nhất là HeyGen(mở trong cửa sổ mới), một nền tảng kể chuyện trực quan AI làm việc với khách hàng doanh nghiệp của họ để tạo ra các hình đại diện tùy chỉnh, giống con người cho nhiều nội dung, từ tiếp thị sản phẩm đến bản demo bán hàng. Họ sử dụng Voice Engine để dịch video, do đó họ có thể dịch giọng nói của người nói sang nhiều ngôn ngữ và tiếp cận đối tượng khán giả toàn cầu. Khi được sử dụng để dịch, Voice Engine giữ nguyên giọng bản địa của người nói gốc: ví dụ, tạo tiếng Anh bằng mẫu âm thanh từ người nói tiếng Pháp sẽ tạo ra giọng nói có giọng Pháp.
Âm thanh tham khảo
Âm thanh được tạo ra
+ Tiếng Tây Ban Nha
+ Tiếng Quan Thoại
+ Tiếng Đức
+ Tiếng Pháp
+ Tiếng Nhật
Tình bạn là kho báu chung , nó mang lại niềm vui , sự hỗ trợ và tiếng cười cho cuộc sống của chúng ta cho dù chúng ta ở đâu trên thế giới. Những người bạn thật sự luôn ở bên chúng ta dù khó khăn hay khó khăn , chia sẻ niềm vui và xoa dịu nỗi buồn . Hãy tôn vinh mối quan hệ hữu nghị đã kết nối tất cả chúng ta qua mọi ngôn ngữ và văn hóa .
Tiếp cận cộng đồng toàn cầu , bằng cách cải thiện việc cung cấp dịch vụ thiết yếu ở các vùng xa xôi. Dimagi(mở trong cửa sổ mới)đang xây dựng các công cụ cho nhân viên y tế cộng đồng để cung cấp nhiều dịch vụ thiết yếu, chẳng hạn như tư vấn cho các bà mẹ đang cho con bú. Để giúp những nhân viên này phát triển kỹ năng của mình, Dimagi sử dụng Voice Engine và GPT-4 để cung cấp phản hồi tương tác bằng ngôn ngữ chính của mỗi nhân viên bao gồm tiếng Swahili hoặc các ngôn ngữ không chính thức hơn như Sheng, một ngôn ngữ hỗn hợp mã phổ biến ở Kenya.
Dinh dưỡng tốt rất quan trọng để đảm bảo trẻ phát triển tốt cả về thể chất và tinh thần. Các loại thực phẩm như trái cây, rau quả , protein, canxi và các loại vitamin khác nhau rất quan trọng cho sự phát triển của xương và phát triển trí não . Ăn uống đầy đủ có nghĩa là trẻ có hệ miễn dịch khỏe mạnh giúp trẻ chống lại bệnh tật . Điều này có nghĩa là, ngay cả khi dịch cúm lây lan trên đường phố, trẻ sẽ có khả năng đối phó mạnh mẽ . Như vậy sẽ không cần phải đưa bé đến bệnh viện thường xuyên nữa . Bằng cách đó, chúng ta đang xây dựng một thế hệ những con người mạnh mẽ . Như bạn đã biết, tương lai của xã hội chúng ta nằm trong tay những người trẻ này . Thật tốt khi chúng ta mang đến cho họ sự khởi đầu tốt nhất trong cuộc sống.
Hỗ trợ những người không nói được , chẳng hạn như các ứng dụng trị liệu cho những người có tình trạng ảnh hưởng đến khả năng nói và cải thiện giáo dục cho những người có nhu cầu học tập. Livox(mở trong cửa sổ mới), một ứng dụng giao tiếp thay thế AI, hỗ trợ các thiết bị Giao tiếp tăng cường & thay thế (AAC) cho phép người khuyết tật giao tiếp. Bằng cách sử dụng Voice Engine, họ có thể cung cấp cho những người không nói được giọng nói độc đáo và không phải giọng nói máy móc trên nhiều ngôn ngữ. Người dùng của họ có thể chọn giọng nói đại diện tốt nhất cho họ và đối với người dùng đa ngôn ngữ, duy trì giọng nói nhất quán trên mỗi ngôn ngữ được nói.
Xin lỗi , tôi có thể thu hút sự chú ý của bạn không? Cảm ơn vì sự giúp đỡ của bạn. Chúng ta có thể xem phim tối nay không ? Bạn có thể giúp tôi tìm kính của tôi không ? Cảm ơn vì sự hiểu biết của bạn , điều đó có ý nghĩa rất lớn đối với tôi.
Giúp bệnh nhân phục hồi giọng nói , dành cho những người bị tình trạng nói đột ngột hoặc thoái hóa. Viện khoa học thần kinh Norman Prince tại Lifespan(mở trong cửa sổ mới), một hệ thống y tế phi lợi nhuận đóng vai trò là đơn vị giảng dạy chính của trường y khoa thuộc Đại học Brown, đang khám phá việc sử dụng AI trong bối cảnh lâm sàng. Họ đã thử nghiệm một chương trình cung cấp Voice Engine cho những cá nhân mắc bệnh ung thư hoặc thần kinh gây suy giảm khả năng nói. Vì Voice Engine yêu cầu một mẫu âm thanh ngắn như vậy, nên các bác sĩ Fatima Mirza, Rohaid Ali và Konstantina Svokos đã có thể khôi phục giọng nói của một bệnh nhân trẻ bị mất khả năng nói lưu loát do khối u não mạch máu, bằng cách sử dụng âm thanh từ một video được ghi lại cho một dự án của trường.
Xin chào mọi người, đây là giọng nói của tôi khi sử dụng mô hình chuyển văn bản thành giọng nói mới của OpenAI có tên là Voice Engine. Tôi đã có thể sử dụng chỉ 15 giây video mà tôi đã tạo cho một dự án lớp học để làm nguồn âm thanh tham chiếu cho giọng nói mà bạn đang nghe thấy ngay bây giờ. Bạn nghĩ sao ?
Xây dựng Voice Engine một cách an toàn
Chúng tôi nhận ra rằng việc tạo ra giọng nói giống với giọng nói của mọi người có những rủi ro nghiêm trọng, đặc biệt là trong năm bầu cử. Chúng tôi đang hợp tác với các đối tác Hoa Kỳ và quốc tế từ khắp chính phủ, phương tiện truyền thông, giải trí, giáo dục, xã hội dân sự và hơn thế nữa để đảm bảo chúng tôi kết hợp phản hồi của họ khi xây dựng. Các đối tác đang thử nghiệm Voice Engine ngày hôm nay đã đồng ý với chính sách sử dụng của chúng tôi , chính sách này cấm việc mạo danh cá nhân hoặc tổ chức khác mà không có sự đồng ý hoặc quyền hợp pháp. Ngoài ra, các điều khoản của chúng tôi với các đối tác này yêu cầu phải có sự đồng ý rõ ràng và có thông tin từ người nói ban đầu và chúng tôi không cho phép các nhà phát triển xây dựng các cách để người dùng cá nhân tạo ra giọng nói của riêng họ. Các đối tác cũng phải tiết lộ rõ ràng với khán giả của họ rằng giọng nói họ nghe được là do AI tạo ra. Cuối cùng, chúng tôi đã triển khai một bộ biện pháp an toàn, bao gồm cả việc thêm hình mờ để theo dõi nguồn gốc của bất kỳ âm thanh nào do Voice Engine tạo ra, cũng như chủ động theo dõi cách sử dụng âm thanh đó. Chúng tôi tin rằng bất kỳ triển khai rộng rãi nào về công nghệ giọng nói tổng hợp đều phải đi kèm với trải nghiệm xác thực giọng nói để xác minh rằng người nói ban đầu cố ý thêm giọng nói của họ vào dịch vụ và danh sách giọng nói không được phép phát hiện và ngăn chặn việc tạo ra giọng nói quá giống với những người nổi tiếng.
Nhìn về phía trước
Voice Engine là sự tiếp nối cam kết của chúng tôi trong việc hiểu ranh giới kỹ thuật và chia sẻ cởi mở những gì có thể thực hiện được với AI. Phù hợp với cách tiếp cận của chúng tôi đối với sự an toàn của AI và các cam kết tự nguyện của chúng tôi , chúng tôi đang chọn xem trước nhưng không phát hành rộng rãi công nghệ này tại thời điểm này. Chúng tôi hy vọng bản xem trước của Voice Engine này vừa nhấn mạnh tiềm năng của nó vừa thúc đẩy nhu cầu tăng cường khả năng phục hồi của xã hội trước những thách thức do các mô hình tạo ra ngày càng thuyết phục hơn mang lại. Cụ thể, chúng tôi khuyến khích các bước như:
Loại bỏ xác thực bằng giọng nói như một biện pháp bảo mật để truy cập vào tài khoản ngân hàng và các thông tin nhạy cảm khác
Khám phá các chính sách bảo vệ việc sử dụng tiếng nói của cá nhân trong AI
Giáo dục công chúng hiểu được khả năng và hạn chế của công nghệ AI, bao gồm khả năng nội dung AI lừa đảo
Đẩy nhanh quá trình phát triển và áp dụng các kỹ thuật theo dõi nguồn gốc của nội dung nghe nhìn, để luôn rõ ràng khi bạn đang tương tác với người thật hay với AI
Điều quan trọng là mọi người trên thế giới hiểu được công nghệ này sẽ đi về đâu, cho dù cuối cùng chúng ta có triển khai rộng rãi hay không. Chúng tôi mong muốn tiếp tục tham gia vào các cuộc thảo luận xung quanh những thách thức và cơ hội của giọng nói tổng hợp với các nhà hoạch định chính sách, nhà nghiên cứu, nhà phát triển và người sáng tạo.