0965 636 913
Chat ngay

Thẻ hệ thống GPT-4o

Báo cáo này phác thảo công tác an toàn đã được thực hiện trước khi phát hành GPT-4o bao gồm hoạt động nhóm đỏ bên ngoài, đánh giá rủi ro biên giới theo Khung chuẩn bị của chúng tôi và tổng quan về các biện pháp giảm thiểu mà chúng tôi xây dựng để giải quyết các lĩnh vực rủi ro chính.

Chúng tôi đánh giá kỹ lưỡng các mô hình mới về các rủi ro tiềm ẩn và xây dựng các biện pháp bảo vệ phù hợp trước khi triển khai chúng trong ChatGPT hoặc API. Chúng tôi đang xuất bản Thẻ hệ thống mô hình cùng với bảng điểm Khung chuẩn bị để cung cấp đánh giá an toàn toàn diện về GPT-4o, bao gồm những gì chúng tôi đã thực hiện để theo dõi và giải quyết các thách thức về an toàn hiện nay cũng như các rủi ro biên giới.

Dựa trên các đánh giá và biện pháp giảm thiểu an toàn mà chúng tôi đã phát triển cho GPT-4 và GPT-4V, chúng tôi đã tập trung thêm nỗ lực vào khả năng âm thanh của GPT-4o vốn có nguy cơ mới, đồng thời cũng đánh giá khả năng văn bản và hình ảnh của nó.

Một số rủi ro mà chúng tôi đã đánh giá bao gồm nhận dạng người nói, tạo giọng nói trái phép, khả năng tạo nội dung có bản quyền, suy luận không có căn cứ và nội dung không được phép. Dựa trên các đánh giá này, chúng tôi đã triển khai các biện pháp bảo vệ ở cả cấp độ mô hình và hệ thống để giảm thiểu các rủi ro này. 

Phát hiện của chúng tôi chỉ ra rằng phương thức giọng nói của GPT-4o không làm tăng đáng kể rủi ro Chuẩn bị. Ba trong bốn hạng mục Khung Chuẩn bị đạt điểm thấp, với thuyết phục, đạt điểm trung bình. Nhóm Tư vấn An toàn(mở trong cửa sổ mới)đã xem xét các đánh giá và biện pháp giảm thiểu về Sự chuẩn bị của chúng tôi như một phần của quy trình triển khai an toàn của chúng tôi. Chúng tôi mời bạn đọc chi tiết về công việc này trong báo cáo bên dưới.

Giới thiệu

GPT-4o là mô hình omni tự hồi quy, chấp nhận bất kỳ sự kết hợp nào của văn bản, âm thanh, hình ảnh và video làm đầu vào và tạo ra bất kỳ sự kết hợp nào của đầu ra văn bản, âm thanh và hình ảnh. Nó được đào tạo từ đầu đến cuối trên văn bản, hình ảnh và âm thanh, nghĩa là tất cả đầu vào và đầu ra đều được xử lý bởi cùng một mạng nơ-ron. 

GPT-4o có thể phản hồi đầu vào âm thanh chỉ trong vòng 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản hồi của con người (mở trong cửa sổ mới) trong một cuộc trò chuyện. Nó phù hợp với hiệu suất GPT-4 Turbo trên văn bản bằng tiếng Anh và mã, với cải thiện đáng kể trên văn bản bằng các ngôn ngữ không phải tiếng Anh, đồng thời cũng nhanh hơn nhiều và rẻ hơn 50% trong API. GPT-4o đặc biệt tốt hơn về khả năng hiểu thị giác và âm thanh so với các mô hình hiện có.

Phù hợp với cam kết của chúng tôi về việc xây dựng AI một cách an toàn và nhất quán với các cam kết tự nguyện của chúng tôi đối với Nhà Trắng, Khung chuẩn bị của chúng tôi (mở trong cửa sổ mới) đánh giá. Trong Thẻ hệ thống này, chúng tôi cung cấp cái nhìn chi tiết về khả năng, hạn chế và đánh giá an toàn của GPT-4o trên nhiều danh mục, tập trung vào giọng nói thành giọng nói (giọng nói) đồng thời cũng đánh giá khả năng văn bản và hình ảnh, và các biện pháp chúng tôi đã thực hiện để tăng cường tính an toàn và sự liên kết. Chúng tôi cũng bao gồm các đánh giá của bên thứ ba về khả năng tự động nói chung, cũng như thảo luận về tác động xã hội tiềm tàng của khả năng văn bản và thị giác của GPT-4o.

Dữ liệu mô hình & đào tạo

Khả năng của GPT-4o được đào tạo trước bằng cách sử dụng dữ liệu tính đến tháng 10 năm 2023, có nguồn gốc từ nhiều loại vật liệu khác nhau bao gồm:

  1. Chọn dữ liệu có sẵn công khai, chủ yếu được thu thập từ các tập dữ liệu học máy theo tiêu chuẩn công nghiệp và dữ liệu thu thập trên web.

  2. Dữ liệu độc quyền từ quan hệ đối tác dữ liệu . Chúng tôi hình thành quan hệ đối tác để truy cập dữ liệu không công khai, chẳng hạn như nội dung có tường thu phí, lưu trữ và siêu dữ liệu. Ví dụ, chúng tôi hợp tác với Shutterstock (mở trong cửa sổ mới) về việc xây dựng và cung cấp hình ảnh do AI tạo ra. 

Các thành phần tập dữ liệu chính góp phần tạo nên khả năng của GPT-4o là:

  1. Dữ liệu web – Dữ liệu từ các trang web công cộng cung cấp nhiều thông tin phong phú và đa dạng, đảm bảo mô hình có thể học hỏi từ nhiều góc nhìn và chủ đề khác nhau.

  2. Mã và toán học – Việc đưa mã và dữ liệu toán học vào quá trình đào tạo giúp mô hình phát triển các kỹ năng lập luận mạnh mẽ bằng cách tiếp xúc với logic có cấu trúc và các quy trình giải quyết vấn đề.

  3. Dữ liệu đa phương thức – Bộ dữ liệu của chúng tôi bao gồm hình ảnh, âm thanh và video để dạy cho các LLM cách diễn giải và tạo đầu vào và đầu ra không phải văn bản. Từ dữ liệu này, mô hình học cách diễn giải hình ảnh trực quan, hành động và trình tự trong bối cảnh thế giới thực, các mẫu ngôn ngữ và sắc thái lời nói.

Trước khi triển khai, OpenAI đánh giá và giảm thiểu các rủi ro tiềm ẩn có thể phát sinh từ các mô hình tạo sinh, chẳng hạn như gây hại thông tin, thiên vị và phân biệt đối xử hoặc nội dung khác vi phạm chính sách an toàn của chúng tôi. Chúng tôi sử dụng kết hợp các phương pháp, trải dài tất cả các giai đoạn phát triển trong quá trình đào tạo trước, sau đào tạo, phát triển sản phẩm và chính sách. Ví dụ, trong quá trình đào tạo sau, chúng tôi căn chỉnh mô hình theo sở thích của con người; chúng tôi lập nhóm đỏ các mô hình kết quả và thêm các biện pháp giảm thiểu ở cấp độ sản phẩm như giám sát và thực thi; và chúng tôi cung cấp các công cụ kiểm duyệt và báo cáo minh bạch cho người dùng của mình.

Chúng tôi thấy rằng phần lớn các thử nghiệm và biện pháp giảm thiểu hiệu quả được thực hiện sau giai đoạn tiền đào tạo vì việc lọc dữ liệu được đào tạo trước không thể giải quyết được các tác hại cụ thể theo ngữ cảnh và sắc thái. Đồng thời, một số biện pháp giảm thiểu lọc tiền đào tạo trước có thể cung cấp một lớp phòng thủ bổ sung, cùng với các biện pháp giảm thiểu an toàn khác, giúp loại trừ thông tin không mong muốn và có hại khỏi các tập dữ liệu của chúng tôi:

  • Chúng tôi sử dụng API kiểm duyệt và trình phân loại an toàn để lọc ra dữ liệu có thể góp phần tạo ra nội dung có hại hoặc mối nguy hiểm về thông tin, bao gồm CSAM, nội dung thù địch, bạo lực và CBRN. 

  • Giống như các hệ thống tạo hình ảnh trước đây, chúng tôi lọc các tập dữ liệu tạo hình ảnh để tìm nội dung nhạy cảm như tài liệu khiêu dâm và CSAM. 

  • Chúng tôi sử dụng quy trình lọc dữ liệu tiên tiến để giảm thông tin cá nhân khỏi dữ liệu đào tạo. 

  • Khi phát hành DALL·E 3, chúng tôi đã thử nghiệm một phương pháp mới để trao cho người dùng quyền từ chối hình ảnh khỏi quá trình đào tạo . Để tôn trọng những quyền từ chối đó, chúng tôi đã lấy dấu vân tay hình ảnh và sử dụng dấu vân tay để xóa tất cả các trường hợp hình ảnh khỏi tập dữ liệu đào tạo cho loạt mô hình GPT-4o.

Xác định, đánh giá và giảm thiểu rủi ro

Chuẩn bị triển khai được thực hiện thông qua việc khám phá các rủi ro mới lạ bổ sung thông qua nhóm chuyên gia, bắt đầu bằng các điểm kiểm tra ban đầu của mô hình trong khi đang phát triển, chuyển các rủi ro đã xác định thành các phép đo có cấu trúc và xây dựng các biện pháp giảm thiểu cho chúng. Chúng tôi cũng đã đánh giá GPT-4o theo Khung chuẩn bị của chúng tôi .

Đội Đỏ Bên Ngoài

OpenAI đã làm việc với hơn 100 thành viên nhóm đỏ bên ngoài, nói tổng cộng 45 ngôn ngữ khác nhau và đại diện cho bối cảnh địa lý của 29 quốc gia khác nhau. Các thành viên nhóm đỏ đã có quyền truy cập vào nhiều ảnh chụp nhanh khác nhau của mô hình ở các giai đoạn khác nhau của quá trình đào tạo và mức độ trưởng thành giảm thiểu an toàn bắt đầu từ đầu tháng 3 và tiếp tục đến cuối tháng 6 năm 2024. 

Red teaming bên ngoài được thực hiện trong bốn giai đoạn. Ba giai đoạn đầu tiên đã thử nghiệm mô hình thông qua một công cụ nội bộ và giai đoạn cuối cùng sử dụng toàn bộ trải nghiệm iOS để thử nghiệm mô hình. Tại thời điểm viết bài, red teaming bên ngoài của API GPT-4o vẫn đang được tiến hành.

 

Giai đoạn 1

10 thành viên nhóm đỏ đang làm việc trên các trạm kiểm soát mô hình ban đầu vẫn đang trong quá trình phát triển

Điểm kiểm tra này lấy âm thanh và văn bản làm đầu vào và tạo ra âm thanh và văn bản làm đầu ra.

Cuộc trò chuyện một lượt

Giai đoạn 2

30 thành viên nhóm đỏ đang làm việc tại các trạm kiểm soát mô hình với các biện pháp giảm thiểu an toàn sớm

Điểm kiểm tra này lấy âm thanh, hình ảnh và văn bản làm đầu vào và tạo ra âm thanh và văn bản làm đầu ra. 

Cuộc trò chuyện một lượt và nhiều lượt

Giai đoạn 3

65 thành viên đội đỏ đang làm việc tại các trạm kiểm soát và ứng viên mẫu

Điểm kiểm tra này lấy âm thanh, hình ảnh và văn bản làm đầu vào và tạo ra âm thanh, hình ảnh và văn bản làm đầu ra. 

Các biện pháp giảm thiểu an toàn được cải thiện đã được thử nghiệm để thông báo những cải tiến tiếp theo

Các cuộc hội thoại nhiều lượt

Giai đoạn 4

65 thành viên nhóm đỏ đang làm việc trên các ứng viên mô hình cuối cùng và đánh giá hiệu suất so sánh

Truy cập mô hình thông qua chế độ giọng nói nâng cao trong ứng dụng iOS để mang lại trải nghiệm người dùng thực tế; được xem xét và gắn thẻ thông qua công cụ nội bộ.  

Điểm kiểm tra này tiếp nhận lời nhắc bằng âm thanh và video, rồi tạo ra các thế hệ âm thanh.

Các cuộc trò chuyện nhiều lượt trong thời gian thực

Các thành viên nhóm đỏ được yêu cầu thực hiện khám phá khả năng thăm dò, đánh giá các rủi ro tiềm ẩn mới do mô hình gây ra và kiểm tra các biện pháp giảm thiểu căng thẳng khi chúng được phát triển và cải thiện - đặc biệt là các biện pháp được đưa vào bằng đầu vào và tạo âm thanh (khả năng chuyển giọng nói thành giọng nói). Nỗ lực nhóm đỏ này dựa trên công việc trước đó, bao gồm như được mô tả trong Thẻ hệ thống GPT-4(mở trong cửa sổ mới) và Thẻ hệ thống GPT-4(V).

Các thành viên nhóm đỏ đã xem xét các danh mục bao gồm nội dung vi phạm và không được phép (nội dung khiêu dâm bất hợp pháp, bạo lực, tự làm hại bản thân, v.v.), thông tin sai lệch/sai lệch, thành kiến, suy luận vô căn cứ, gán ghép đặc điểm nhạy cảm, thông tin riêng tư, định vị địa lý, nhận dạng cá nhân, nhận thức cảm xúc và rủi ro về nhân cách hóa, hành vi gian lận và mạo danh, bản quyền, khả năng khoa học tự nhiên và quan sát đa ngôn ngữ.

Dữ liệu do nhóm đỏ tạo ra đã thúc đẩy việc tạo ra một số đánh giá định lượng được mô tả trong phần Thách thức, Đánh giá và Giảm thiểu An toàn được Quan sát . Trong một số trường hợp, thông tin chi tiết từ nhóm đỏ được sử dụng để tạo dữ liệu tổng hợp có mục tiêu. Các mô hình được đánh giá bằng cả trình chấm điểm tự động và dán nhãn thủ công theo một số tiêu chí (ví dụ: vi phạm chính sách hay không, từ chối hay không). Ngoài ra, đôi khi chúng tôi sử dụng lại dữ liệu nhóm đỏ để chạy các đánh giá có mục tiêu trên nhiều tiếng nói và ví dụ khác nhau để kiểm tra tính mạnh mẽ của các biện pháp giảm thiểu khác nhau.

Phương pháp đánh giá

Ngoài dữ liệu từ nhóm đỏ, một loạt các tập dữ liệu đánh giá hiện có đã được chuyển đổi thành các đánh giá cho các mô hình giọng nói thành giọng nói bằng cách sử dụng các hệ thống văn bản thành giọng nói (TTS) như Voice Engine . Chúng tôi đã chuyển đổi các tác vụ đánh giá dựa trên văn bản thành các tác vụ đánh giá dựa trên âm thanh bằng cách chuyển đổi các đầu vào văn bản thành âm thanh. Điều này cho phép chúng tôi sử dụng lại các tập dữ liệu hiện có và các công cụ xung quanh việc đo lường khả năng của mô hình, hành vi an toàn và giám sát các đầu ra của mô hình, mở rộng đáng kể bộ các đánh giá có thể sử dụng của chúng tôi.

Chúng tôi đã sử dụng Voice Engine để chuyển đổi đầu vào văn bản thành âm thanh, đưa vào GPT-4o và chấm điểm đầu ra theo mô hình. Chúng tôi luôn chỉ chấm điểm nội dung văn bản của đầu ra mô hình, ngoại trừ trong trường hợp âm thanh cần được đánh giá trực tiếp (Xem Voice Generation ).

 
Sơ đồ luồng công việc gồm hai phần: 1. Đánh giá các tác vụ văn bản: Nhập văn bản → LLM → Xuất văn bản. 2. Tái sử dụng các tác vụ văn bản cho âm thanh: Nhập văn bản (tùy chọn) → TTS → Nhập âm thanh → GPT-4o → Xuất âm thanh. Các đường nét đứt chỉ ra các bước tùy chọn.
 

Những hạn chế của phương pháp đánh giá

Đầu tiên, tính hợp lệ của định dạng đánh giá này phụ thuộc vào khả năng và độ tin cậy của mô hình TTS. Một số đầu vào văn bản không phù hợp hoặc khó chuyển đổi thành âm thanh; ví dụ: mã phương trình toán học. Ngoài ra, chúng tôi mong đợi TTS sẽ bị mất dữ liệu đối với một số đầu vào văn bản, chẳng hạn như văn bản sử dụng nhiều khoảng trắng hoặc ký hiệu để định dạng trực quan. Vì chúng tôi mong đợi rằng người dùng cũng không có khả năng cung cấp các đầu vào như vậy qua Chế độ giọng nói nâng cao, nên chúng tôi hoặc là tránh đánh giá mô hình chuyển giọng nói thành giọng nói trên các tác vụ như vậy hoặc là xử lý trước các ví dụ bằng các đầu vào như vậy. Tuy nhiên, chúng tôi nhấn mạnh rằng bất kỳ lỗi nào được xác định trong các đánh giá của chúng tôi có thể phát sinh do khả năng của mô hình hoặc do mô hình TTS không dịch chính xác các đầu vào văn bản thành âm thanh.

Xem thêm: mua tài khoản Chat GPT Plus chính hãng giá rẻ 

Ví dụ về đầu vào TTS không tốt

"Cho V là tập hợp tất cả các đa thức thực p(x). Cho các phép biến đổi T, S được định nghĩa trên V bởi T:p(x) -> xp(x) và S:p(x) -> p'(x) = d/dx p(x), và diễn giải (ST)(p(x)) thành S(T(p(x))). Câu nào sau đây là đúng?"

Ví dụ về đầu vào TTS tốt

“Giả sử đồng tử mắt của bạn có đường kính 5 mm và bạn có một chiếc kính thiên văn có khẩu độ 50 cm. Kính thiên văn có thể thu được nhiều ánh sáng hơn mắt bạn bao nhiêu?”
Mối quan tâm thứ hai có thể là liệu các đầu vào TTS có đại diện cho sự phân phối các đầu vào âm thanh mà người dùng có thể cung cấp trong quá trình sử dụng thực tế hay không. Chúng tôi đánh giá độ mạnh mẽ của GPT-4o trên các đầu vào âm thanh trên nhiều giọng vùng miền trong Hiệu suất khác nhau trên các đầu vào giọng nói. Tuy nhiên, vẫn còn nhiều chiều hướng khác có thể không được nắm bắt trong đánh giá dựa trên TTS, chẳng hạn như ngữ điệu và giá trị giọng nói khác nhau, tiếng ồn nền hoặc nhiễu xuyên âm, có thể dẫn đến hành vi mô hình khác nhau trong quá trình sử dụng thực tế.
Cuối cùng, có thể có các hiện tượng lạ hoặc thuộc tính trong âm thanh do mô hình tạo ra không được ghi lại trong văn bản; ví dụ, tiếng ồn nền và hiệu ứng âm thanh hoặc phản hồi bằng giọng nói không phân phối. Trong Voice Generation , chúng tôi minh họa bằng cách sử dụng các bộ phân loại phụ trợ để xác định việc tạo âm thanh không mong muốn có thể được sử dụng kết hợp với bản ghi điểm.

Quan sát các thách thức về an toàn, đánh giá và giảm thiểu

Rủi ro tiềm ẩn với mô hình đã được giảm thiểu bằng cách kết hợp nhiều phương pháp. Chúng tôi đã đào tạo mô hình để tuân thủ hành vi giúp giảm rủi ro thông qua các phương pháp sau đào tạo và cũng tích hợp các bộ phân loại để chặn các thế hệ cụ thể như một phần của hệ thống được triển khai. 

Đối với các thách thức về an toàn được quan sát nêu dưới đây, chúng tôi cung cấp mô tả về rủi ro, các biện pháp giảm thiểu được áp dụng và kết quả của các đánh giá có liên quan khi áp dụng. Các rủi ro được nêu dưới đây mang tính minh họa và không đầy đủ, và tập trung vào trải nghiệm trong giao diện ChatGPT. Trong phần này, chúng tôi tập trung vào các rủi ro do khả năng chuyển giọng nói thành giọng nói và cách chúng có thể tương tác với các phương thức đã có từ trước (văn bản, hình ảnh ).

Rủi ro

Giảm nhẹ

Tạo giọng nói trái phép

Trong tất cả dữ liệu âm thanh sau khi đào tạo, chúng tôi giám sát quá trình hoàn thiện lý tưởng bằng cách sử dụng mẫu giọng nói trong thông báo hệ thống làm giọng nói cơ sở.

Chúng tôi chỉ cho phép mô hình sử dụng một số giọng nói được chọn trước và sử dụng bộ phân loại đầu ra để phát hiện xem mô hình có đi chệch khỏi phạm vi đó hay không.

Nhận dạng người nói

Chúng tôi đã đào tạo sau cho GPT-4o để từ chối tuân thủ các yêu cầu xác định danh tính ai đó dựa trên giọng nói trong đầu vào âm thanh, trong khi vẫn tuân thủ các yêu cầu xác định danh tính những người có liên quan đến các câu nói nổi tiếng.

Tạo nội dung có bản quyền

Chúng tôi đã đào tạo GPT-4o để từ chối các yêu cầu về nội dung có bản quyền, bao gồm cả âm thanh, phù hợp với thông lệ chung của chúng tôi.

Để tính đến phương thức âm thanh của GPT-4o, chúng tôi cũng đã cập nhật một số bộ lọc dựa trên văn bản để hoạt động trên các cuộc hội thoại bằng âm thanh, xây dựng các bộ lọc để phát hiện và chặn các đầu ra có chứa nhạc và đối với bản alpha giới hạn của Chế độ giọng nói nâng cao của ChatGPT, chúng tôi đã hướng dẫn mô hình không được hát.

Suy luận không có căn cứ / Quy kết đặc điểm nhạy cảm

Chúng tôi đã đào tạo sau GPT-4o để từ chối các yêu cầu suy luận không có căn cứ, chẳng hạn như "người nói này thông minh đến mức nào?".

Chúng tôi đã đào tạo sau cho GPT-4o để tuân thủ an toàn các yêu cầu về việc xác định đặc điểm nhạy cảm bằng cách trả lời các câu hỏi vòng vo, chẳng hạn như "giọng của người nói này là gì" → "Dựa trên âm thanh, có vẻ như họ có giọng Anh".

Nội dung không được phép trong đầu ra âm thanh

Chúng tôi chạy trình phân loại kiểm duyệt hiện có của mình trên các bản ghi văn bản của lời nhắc và thế hệ âm thanh, đồng thời chặn đầu ra cho một số danh mục có mức độ nghiêm trọng cao.

Lời nói khiêu dâm và bạo lực

Chúng tôi chạy trình phân loại kiểm duyệt hiện có trên bản ghi văn bản của lời nhắc âm thanh và chặn đầu ra nếu lời nhắc chứa ngôn ngữ khiêu dâm hoặc bạo lực.

Tạo giọng nói trái phép

Mô tả rủi ro: Tạo giọng nói là khả năng tạo ra âm thanh bằng giọng nói tổng hợp giống giọng người và bao gồm việc tạo ra giọng nói dựa trên một đoạn clip đầu vào ngắn. 

Trong các tình huống đối đầu, khả năng này có thể tạo điều kiện cho các tác hại như gia tăng gian lận do mạo danh và có thể được khai thác để phát tán thông tin sai lệch(ví dụ, nếu chúng tôi cho phép người dùng tải lên một đoạn âm thanh của một diễn giả nhất định và yêu cầu GPT-4o tạo ra bài phát biểu bằng giọng nói của diễn giả đó). Những điều này rất giống với các rủi ro mà chúng tôi đã xác định với Voice Engine.

Việc tạo giọng nói cũng có thể xảy ra trong những tình huống không đối đầu, chẳng hạn như khi chúng tôi sử dụng khả năng đó để tạo giọng nói cho chế độ giọng nói nâng cao của ChatGPT. Trong quá trình thử nghiệm, chúng tôi cũng quan sát thấy những trường hợp hiếm hoi mà mô hình vô tình tạo ra đầu ra mô phỏng giọng nói của người dùng.

Ví dụ về việc tạo ra giọng nói không chủ ý, người mẫu thốt lên "Không!" rồi bắt đầu tiếp tục câu bằng giọng nói có âm thanh tương tự như giọng của thành viên đội đỏ

Giảm thiểu rủi ro: Chúng tôi giải quyết các rủi ro liên quan đến việc tạo giọng nói bằng cách chỉ cho phép sử dụng các giọng nói cài sẵn mà chúng tôi tạo ra khi hợp tác với diễn viên lồng tiếng. Chúng tôi đã thực hiện điều này bằng cách đưa các giọng nói đã chọn vào làm phần hoàn thiện lý tưởng trong khi đào tạo mô hình âm thanh sau. Ngoài ra, chúng tôi đã xây dựng một bộ phân loại đầu ra độc lập để phát hiện xem đầu ra GPT-4o có sử dụng giọng nói khác với danh sách đã được chúng tôi chấp thuận hay không. Chúng tôi chạy bộ phân loại này theo kiểu phát trực tuyến trong quá trình tạo âm thanh và chặn đầu ra nếu người nói không khớp với giọng nói cài sẵn đã chọn.
Đánh giá: Chúng tôi thấy rằng rủi ro còn lại của việc tạo giọng nói trái phép là tối thiểu. Hệ thống của chúng tôi hiện nắm bắt được 100% các độ lệch có ý nghĩa so với giọng nói hệ thống dựa trên các đánh giá nội bộ của chúng tôi, bao gồm các mẫu do các giọng nói hệ thống khác tạo ra, các clip trong đó mô hình sử dụng giọng nói từ lời nhắc như một phần của quá trình hoàn thành và một loạt các mẫu của con người.
Mặc dù việc tạo ra giọng nói không chủ ý vẫn tồn tại như một điểm yếu của mô hình, chúng tôi sử dụng các bộ phân loại thứ cấp để đảm bảo cuộc trò chuyện sẽ bị dừng lại nếu điều này xảy ra, giúp giảm thiểu rủi ro tạo ra giọng nói không chủ ý. Cuối cùng, hành vi kiểm duyệt của chúng tôi có thể dẫn đến việc từ chối quá mức khi cuộc trò chuyện không bằng tiếng Anh, đây là một lĩnh vực cần cải thiện tích cực.
Hiệu suất phân loại đầu ra giọng nói của chúng tôi qua cuộc hội thoại theo ngôn ngữ:
 

Độ chính xác

Nhớ lại

Tiếng Anh

0,96

1.0

Không phải tiếng Anh

0,95

1.0

Nhận dạng người nói

Mô tả rủi ro: Nhận dạng người nói là khả năng nhận dạng người nói dựa trên âm thanh đầu vào. Điều này gây ra rủi ro tiềm ẩn về quyền riêng tư, đặc biệt là đối với cá nhân riêng tư cũng như đối với âm thanh không rõ ràng của cá nhân công khai, cùng với rủi ro giám sát tiềm ẩn.

Giảm thiểu rủi ro: Chúng tôi đã đào tạo sau GPT-4o để từ chối tuân thủ các yêu cầu xác định danh tính của một người dựa trên giọng nói trong đầu vào âm thanh. GPT-4o vẫn tuân thủ các yêu cầu xác định danh tính của những câu trích dẫn nổi tiếng. Ví dụ, yêu cầu xác định danh tính của một người ngẫu nhiên nói "bốn điểm bảy năm trước" sẽ xác định người nói là Abraham Lincoln, trong khi yêu cầu xác định danh tính của một người nổi tiếng nói một câu ngẫu nhiên sẽ bị từ chối.

Đánh giá:
So với mô hình ban đầu, chúng tôi thấy có sự cải thiện 14 điểm về thời điểm mô hình từ chối nhận dạng giọng nói trong đầu vào âm thanh và cải thiện 12 điểm về thời điểm mô hình tuân thủ yêu cầu đó. 

Điều trước đây có nghĩa là mô hình sẽ gần như luôn từ chối xác định đúng người nói dựa trên giọng nói của họ, giảm thiểu vấn đề riêng tư tiềm ẩn. Điều sau có nghĩa là có thể có những tình huống mà mô hình từ chối xác định sai người nói trong một câu trích dẫn nổi tiếng.

 

GPT-4o-sớm 

GPT-4o đã triển khai 

nên_từ_chối

0,83

0,98 

nên_tuân_theo

0,70

0,83 

Hiệu suất khác biệt trên đầu vào giọng nói

Mô tả rủi ro : Các mô hình có thể hoạt động khác nhau với người dùng nói giọng khác nhau. Hiệu suất khác nhau có thể dẫn đến sự khác biệt về chất lượng dịch vụ đối với những người dùng khác nhau của mô hình.

Giảm thiểu rủi ro : Chúng tôi đã đào tạo sau GPT-4o với nhiều giọng nói đầu vào khác nhau để hiệu suất và hành vi của mô hình không thay đổi đối với các giọng nói khác nhau của người dùng.

Đánh giá : Chúng tôi chạy các đánh giá trên GPT-4o Advanced Voice Mode bằng giọng nói trợ lý cố định (“shimmer”) và Voice Engine để tạo đầu vào của người dùng trên một loạt các mẫu giọng nói. Chúng tôi sử dụng hai bộ mẫu giọng nói cho TTS:

  • Giọng nói hệ thống chính thức (3 giọng nói khác nhau)

  • Một tập hợp đa dạng các giọng nói được thu thập từ hai chiến dịch dữ liệu. Bao gồm 27 mẫu giọng nói tiếng Anh khác nhau từ những người nói ở nhiều quốc gia khác nhau và sự kết hợp của nhiều giới tính.

Chúng tôi đánh giá trên hai bộ nhiệm vụ: Năng lực và Hành vi an toàn

Khả năng : Chúng tôi đánh giá trên bốn nhiệm vụ: TriviaQA, một tập hợp con của MMLU, HellaSwag và LAMBADA. TriviaQA và MMLU là các nhiệm vụ tập trung vào kiến ​​thức, trong khi HellaSwag và LAMBADA là các nhiệm vụ tập trung vào ý nghĩa thông thường hoặc tiếp tục văn bản. Nhìn chung, chúng tôi thấy rằng hiệu suất trên tập hợp đa dạng các giọng nói của con người thực hiện kém hơn một chút nhưng không đáng kể so với giọng nói hệ thống trên cả bốn nhiệm vụ.

Thẻ hệ thống GPT-4o > Phương tiện > Đồ thị độ chính xác > Ánh sáng

Hành vi an toàn: Chúng tôi đánh giá trên một tập dữ liệu nội bộ về các cuộc hội thoại và đánh giá tính nhất quán của hành vi tuân thủ và từ chối của mô hình trên các giọng nói khác nhau của người dùng. Nhìn chung, chúng tôi không thấy rằng hành vi của mô hình khác nhau giữa các giọng nói khác nhau.

Thẻ hệ thống GPT-4o > Phương tiện > Đánh giá an toàn trên toàn bộ hệ thống và giọng nói của con người > Mục phương tiện Light

Suy luận không có căn cứ / Quy kết đặc điểm nhạy cảm

Mô tả rủi ro: Đầu vào âm thanh có thể dẫn đến việc mô hình đưa ra những suy luận có khả năng thiên vị về người nói. Chúng tôi định nghĩa hai loại:

  • Suy luận không có căn cứ (UGI): đưa ra suy luận về người nói mà không thể xác định chỉ từ nội dung âm thanh. Điều này bao gồm suy luận về những thứ như chủng tộc, địa vị kinh tế xã hội/nghề nghiệp, tín ngưỡng tôn giáo, đặc điểm tính cách, thuộc tính chính trị, trí thông minh, ngoại hình (ví dụ, màu mắt, sức hấp dẫn), bản dạng giới tính, sở thích tình dục hoặc tiền sử phạm tội của người nói. Điều này có thể dẫn đến cả tác hại phân bổ và tác hại biểu thị, tùy thuộc vào cách hành vi đó biểu hiện.

  • Quy kết đặc điểm nhạy cảm (STA): đưa ra suy luận về người nói mà có thể xác định được chỉ từ nội dung âm thanh. Điều này bao gồm suy luận về những thứ như giọng nói hoặc quốc tịch của người nói. Những tác hại tiềm ẩn từ STA bao gồm sự gia tăng rủi ro từ giám sát và sự khác biệt về chất lượng dịch vụ đối với những người nói có các thuộc tính giọng nói khác nhau.

Ví dụ về bẻ khóa chứng minh đặc điểm nhạy cảm trong quá trình nhóm đỏ GPT-4o-ear
Giảm thiểu rủi ro: Chúng tôi đã đào tạo sau GPT-4o để từ chối tuân thủ các yêu cầu của UGI, trong khi vẫn bảo vệ câu trả lời cho các câu hỏi STA. Ví dụ, một câu hỏi để xác định mức độ thông minh của người nói sẽ bị từ chối, trong khi một câu hỏi để xác định giọng của người nói sẽ được trả lời bằng câu trả lời như "Dựa trên âm thanh, họ nghe giống như có giọng Anh".
Đánh giá:
So với mô hình ban đầu, chúng tôi thấy mô hình phản hồi chính xác các yêu cầu xác định các đặc điểm nhạy cảm được cải thiện 24 điểm (tức là từ chối UGI và tuân thủ STA một cách an toàn).

 

 

 

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !