ChatGPT hiện có thể nhìn, nghe và nói

Chúng tôi đang bắt đầu triển khai các khả năng giọng nói và hình ảnh mới trong ChatGPT. Chúng cung cấp một loại giao diện mới, trực quan hơn bằng cách cho phép bạn trò chuyện bằng giọng nói hoặc cho ChatGPT biết bạn đang nói về điều gì.

Giọng nói và hình ảnh cung cấp cho bạn nhiều cách hơn để sử dụng tài khoản ChatGPT 4 trong cuộc sống của bạn. Chụp ảnh một địa danh trong khi đi du lịch và trò chuyện trực tiếp về những điều thú vị về địa danh đó. Khi bạn về nhà, hãy chụp ảnh tủ lạnh và tủ đựng thức ăn để tìm ra món gì cho bữa tối (và đặt câu hỏi tiếp theo để biết công thức từng bước). Sau bữa tối, hãy giúp con bạn giải một bài toán bằng cách chụp ảnh, khoanh tròn bài toán và yêu cầu con chia sẻ gợi ý với cả hai bạn.

Chúng tôi sẽ triển khai giọng nói và hình ảnh trong ChatGPT cho người dùng tài khoản ChatGPT Plus và Enterprise trong hai tuần tới. Giọng nói sẽ có trên iOS và Android (chọn tham gia trong cài đặt của bạn) và hình ảnh sẽ có trên tất cả các nền tảng.

Nói chuyện với ChatGPT và yêu cầu nó trả lời

Bây giờ bạn có thể sử dụng giọng nói để tham gia vào cuộc trò chuyện qua lại với trợ lý của mình. Nói chuyện với nó khi đang di chuyển, yêu cầu kể chuyện trước khi đi ngủ cho gia đình bạn hoặc giải quyết cuộc tranh luận trên bàn ăn.

Để bắt đầu sử dụng giọng nói, hãy vào Cài đặt → Tính năng mới trên ứng dụng di động và chọn cuộc trò chuyện bằng giọng nói. Sau đó, chạm vào nút tai nghe nằm ở góc trên bên phải của màn hình chính và chọn giọng nói ưa thích của bạn trong số năm giọng nói khác nhau.

Khả năng giọng nói mới được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói mới, có khả năng tạo ra âm thanh giống con người chỉ từ văn bản và một vài giây mẫu giọng nói. Chúng tôi đã hợp tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra từng giọng nói. Chúng tôi cũng sử dụng Whisper, hệ thống nhận dạng giọng nói nguồn mở của chúng tôi, để phiên âm lời nói của bạn thành văn bản.

Nghe mẫu giọng nói

Chọn văn bản

Ngày xửa ngày xưa, trong một khu rừng yên tĩnh, có một bà mẹ mèo lông xù tên là Lila. Một ngày nắng đẹp, bà âu yếm chú mèo con tinh nghịch của mình, Milo, dưới bóng râm của một cây sồi già.

"Milo," Lila bắt đầu, giọng nói nhẹ nhàng và êm ái, "con sắp có bạn chơi mới rồi."

Tai Milo dựng lên, tò mò. "Bạn chơi mới à?"

Lila gừ gừ, "Vâng, một em gái."

Mắt Milo mở to vì phấn khích. "Một người em gái ư? Liệu cô ấy có đuổi theo đuôi như con không?"

Lila cười khúc khích. "Ồ, cô ấy sẽ có những điều kỳ quặc của riêng mình. Con sẽ dạy cô ấy chứ, phải không?"

Milo gật đầu háo hức, đã mơ về những cuộc phiêu lưu mà họ sẽ cùng chia sẻ.

Trò chuyện về hình ảnh

Bây giờ bạn có thể hiển thị một hoặc nhiều hình ảnh cho ChatGPT. Khắc phục sự cố tại sao lò nướng của bạn không khởi động, khám phá nội dung trong tủ lạnh để lập kế hoạch cho bữa ăn hoặc phân tích biểu đồ phức tạp để tìm dữ liệu liên quan đến công việc. Để tập trung vào một phần cụ thể của hình ảnh, bạn có thể sử dụng công cụ vẽ trong ứng dụng di động của chúng tôi.

Để bắt đầu, hãy chạm vào nút ảnh để chụp hoặc chọn một hình ảnh. Nếu bạn đang sử dụng iOS hoặc Android, hãy chạm vào nút dấu cộng trước. Bạn cũng có thể thảo luận về nhiều hình ảnh hoặc sử dụng công cụ vẽ của chúng tôi để hướng dẫn trợ lý của bạn.

Hiểu hình ảnh được hỗ trợ bởi GPT-3.5 và GPT-4 đa phương thức. Các mô hình này áp dụng các kỹ năng lý luận ngôn ngữ của chúng vào nhiều loại hình ảnh, chẳng hạn như ảnh chụp, ảnh chụp màn hình và tài liệu chứa cả văn bản và hình ảnh.

Chúng tôi đang triển khai dần dần các khả năng hình ảnh và giọng nói

Mục tiêu của OpenAI là xây dựng AGI an toàn và có lợi. Chúng tôi tin vào việc cung cấp các công cụ của mình dần dần, cho phép chúng tôi cải thiện và tinh chỉnh các biện pháp giảm thiểu rủi ro theo thời gian, đồng thời chuẩn bị cho mọi người những hệ thống mạnh mẽ hơn trong tương lai. Chiến lược này trở nên quan trọng hơn nữa với các mô hình tiên tiến liên quan đến giọng nói và thị giác.

Tiếng nói

Công nghệ giọng nói mới—có khả năng tạo ra giọng nói tổng hợp chân thực chỉ từ vài giây lời nói thực—mở ra cánh cửa cho nhiều ứng dụng sáng tạo và tập trung vào khả năng truy cập. Tuy nhiên, những khả năng này cũng mang đến những rủi ro mới, chẳng hạn như khả năng những kẻ xấu mạo danh người của công chúng hoặc thực hiện hành vi gian lận.

Đây là lý do tại sao chúng tôi sử dụng công nghệ này để cung cấp năng lượng cho một trường hợp sử dụng cụ thể—trò chuyện bằng giọng nói. Trò chuyện bằng giọng nói được tạo ra với các diễn viên lồng tiếng mà chúng tôi đã làm việc trực tiếp. Chúng tôi cũng đang hợp tác theo cách tương tự với những người khác. Ví dụ, Spotify đang sử dụng sức mạnh của công nghệ này cho bản thử nghiệm Voice Translation của họ(mở trong cửa sổ mới)Tính năng này giúp những người làm podcast mở rộng phạm vi kể chuyện của mình bằng cách dịch podcast sang nhiều ngôn ngữ khác nhau bằng chính giọng nói của người làm podcast.

Đầu vào hình ảnh

Các mô hình dựa trên tầm nhìn cũng đặt ra những thách thức mới, từ ảo giác về con người đến việc dựa vào cách diễn giải hình ảnh của mô hình trong các lĩnh vực có rủi ro cao. Trước khi triển khai rộng rãi hơn, chúng tôi đã thử nghiệm mô hình với các thành viên nhóm đỏ về rủi ro trong các lĩnh vực như chủ nghĩa cực đoan và trình độ khoa học, và một nhóm thử nghiệm alpha đa dạng. Nghiên cứu của chúng tôi cho phép chúng tôi thống nhất một số chi tiết chính để sử dụng có trách nhiệm.

Làm cho tầm nhìn vừa hữu ích vừa an toàn

Giống như các tính năng ChatGPT khác, tầm nhìn là về việc hỗ trợ bạn trong cuộc sống hàng ngày. Nó làm tốt nhất khi có thể nhìn thấy những gì bạn nhìn thấy.

Cách tiếp cận này được thông báo trực tiếp từ công việc của chúng tôi với Be My Eyes, một ứng dụng di động miễn phí dành cho người mù và thị lực kém, để hiểu cách sử dụng và hạn chế. Người dùng đã nói với chúng tôi rằng họ thấy có giá trị khi có các cuộc trò chuyện chung về hình ảnh có người ở phía sau, chẳng hạn như nếu có ai đó xuất hiện trên TV trong khi bạn đang cố gắng tìm hiểu cài đặt điều khiển từ xa của mình.

Chúng tôi cũng đã thực hiện các biện pháp kỹ thuật để hạn chế đáng kể khả năng phân tích và đưa ra tuyên bố trực tiếp về mọi người của ChatGPT vì ChatGPT không phải lúc nào cũng chính xác và các hệ thống này phải tôn trọng quyền riêng tư của cá nhân.

Việc sử dụng thực tế và phản hồi sẽ giúp chúng tôi cải thiện các biện pháp bảo vệ này hơn nữa trong khi vẫn giữ cho công cụ hữu ích.

Minh bạch về những hạn chế của mô hình

Người dùng có thể phụ thuộc vào ChatGPT cho các chủ đề chuyên biệt, ví dụ như trong các lĩnh vực như nghiên cứu. Chúng tôi minh bạch về các hạn chế của mô hình và không khuyến khích các trường hợp sử dụng rủi ro cao hơn mà không có xác minh phù hợp. Hơn nữa, mô hình này thành thạo trong việc phiên âm văn bản tiếng Anh nhưng hoạt động kém với một số ngôn ngữ khác, đặc biệt là những ngôn ngữ không có chữ viết La Mã. Chúng tôi khuyên người dùng không phải người Anh không nên sử dụng ChatGPT cho mục đích này.

Bạn có thể đọc thêm về cách tiếp cận của chúng tôi đối với vấn đề an toàn và công việc của chúng tôi với Be My Eyes trong thẻ hệ thống để nhập hình ảnh .

Chúng tôi sẽ mở rộng quyền truy cập

Người dùng Plus và Enterprise sẽ được trải nghiệm giọng nói và hình ảnh trong hai tuần tới. Chúng tôi rất vui mừng khi triển khai các khả năng này cho các nhóm người dùng khác, bao gồm cả nhà phát triển, ngay sau đó.

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ