0965 636 913
Chat ngay

Xin chào GPT-4o

Chúng tôi xin giới thiệu GPT-4o, mẫu máy chủ lực mới có khả năng suy luận bằng âm thanh, hình ảnh và văn bản theo thời gian thực

GPT-4o (“o” cho “omni”) là một bước tiến tới tương tác giữa người và máy tính tự nhiên hơn nhiều—nó chấp nhận bất kỳ sự kết hợp nào của văn bản, âm thanh, hình ảnh và video làm đầu vào và tạo ra bất kỳ sự kết hợp nào của đầu ra văn bản, âm thanh và hình ảnh. Nó có thể phản hồi đầu vào âm thanh chỉ trong 232 mili giây, với thời gian phản hồi trung bình là 320 mili giây, tương tự như thời gian phản hồi của con người(mở trong cửa sổ mới) trong một cuộc trò chuyện. Nó phù hợp với hiệu suất của GPT-4 Turbo trên văn bản bằng tiếng Anh và mã, với sự cải thiện đáng kể trên văn bản bằng các ngôn ngữ không phải tiếng Anh, đồng thời cũng nhanh hơn nhiều và rẻ hơn 50% trong API. GPT-4o đặc biệt tốt hơn trong việc hiểu thị giác và âm thanh so với các mô hình hiện có.

Khả năng của mô hình

Trước GPT-4o, bạn có thể sử dụng Voice Mode để nói chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT-3,5) và 5,4 giây (GPT-4). Để đạt được điều này, Voice Mode là một đường ống gồm ba mô hình riêng biệt: một mô hình đơn giản chuyển âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 lấy văn bản và xuất văn bản, và mô hình đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh. Quá trình này có nghĩa là nguồn thông tin chính, GPT-4, mất rất nhiều thông tin—nó không thể trực tiếp quan sát âm điệu, nhiều người nói hoặc tiếng ồn nền và không thể xuất tiếng cười, tiếng hát hoặc thể hiện cảm xúc.

Với GPT-4o, chúng tôi đã đào tạo một mô hình mới duy nhất từ ​​đầu đến cuối trên văn bản, hình ảnh và âm thanh, nghĩa là tất cả các đầu vào và đầu ra đều được xử lý bởi cùng một mạng nơ-ron. Vì GPT-4o là mô hình đầu tiên của chúng tôi kết hợp tất cả các phương thức này, chúng tôi vẫn chỉ đang khám phá bề nổi những gì mô hình có thể làm và những hạn chế của nó.

Đánh giá mô hình

Khi đo lường trên các chuẩn mực truyền thống, GPT-4o đạt hiệu suất cấp GPT-4 Turbo về trí thông minh văn bản, lý luận và mã hóa, đồng thời thiết lập chuẩn mực mới về khả năng đa ngôn ngữ, âm thanh và hình ảnh.

 
 
 

Phân tích ngôn ngữ

20 ngôn ngữ này được chọn làm đại diện cho khả năng nén của trình phân tích cú pháp mới trên nhiều nhóm ngôn ngữ khác nhau

  

Gujarati giảm 4,4 lần số token (từ 145 xuống 33)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới. Rất vui được gặp bạn!

Telugu giảm 3,5 lần số lượng token (từ 159 xuống còn 45)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới. Rất vui được gặp bạn!

Tamil ít hơn 3,3 lần số lượng token (từ 116 xuống 35)

Xin chào, tên tôi là GBD-4o. Tôi là một loại mô hình ngôn ngữ mới. Rất vui được gặp bạn!

Marathi giảm 2,9 lần số token (từ 96 xuống 33)

Xin chào, tên tôi là GPT-4o| Tôi là một loại mô hình ngôn ngữ mới Rất vui được gặp bạn!

Tiếng Hindi giảm 2,9 lần số lượng token (từ 90 xuống 31)

Xin chào, tên tôi là gpt-4o. Tôi là một loại mô hình ngôn ngữ mới. Rất vui được gặp bạn!

Urdu 2,5 lần ít token hơn (từ 82 xuống 33)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Ả Rập ít hơn 2,0 lần số lượng token (từ 53 xuống 26)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Ba Tư giảm 1,9 lần số lượng token (từ 61 xuống 32)

Xin chào, tên tôi là GPT-4O. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Nga giảm 1,7 lần số lượng token (từ 39 xuống 23)

Xin chào, tên tôi là GPT-4o. Tôi là người mẫu ngôn ngữ mới, rất vui được gặp bạn!

Số lượng token Hàn Quốc ít hơn 1,7 lần (từ 45 xuống 27)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Việt: Giảm 1,5 lần số token (từ 46 xuống 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Số lượng token Trung Quốc ít hơn 1,4 lần (từ 34 xuống 24)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Nhật giảm 1,4 lần số lượng token (từ 37 xuống 26)

Xin chào, tên tôi là GPT-4o. Tôi là một kiểu mô hình ngôn ngữ mới. Rất vui được gặp bạn!

Tiếng Thổ Nhĩ Kỳ giảm 1,3 lần số lượng token (từ 39 xuống 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Ý giảm 1,2 lần số lượng token (từ 34 xuống 28)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Đức ít hơn 1,2 lần số lượng token (từ 34 xuống 29)

Xin chào, tên tôi là GPT-4o. Tôi là một mô hình ngôn ngữ AI mới. Rất vui được gặp bạn.

Tiếng Tây Ban Nha 1,1 lần ít mã thông báo hơn (từ 29 xuống 26)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Bồ Đào Nha 1,1 lần ít mã thông báo hơn (từ 30 xuống 27)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Pháp 1,1 lần ít mã thông báo hơn (từ 31 xuống 28)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Anh 1.1x ít mã thông báo hơn (từ 27 xuống 24)

Xin chào, tên tôi là GPT-4o. Tôi là một mô hình ngôn ngữ kiểu mới, rất vui được gặp bạn!

An toàn và hạn chế của mô hình

GPT-4o có tính năng an toàn được tích hợp sẵn theo thiết kế trên mọi phương thức, thông qua các kỹ thuật như lọc dữ liệu đào tạo và tinh chỉnh hành vi của mô hình thông qua đào tạo sau. Chúng tôi cũng đã tạo ra các hệ thống an toàn mới để cung cấp các biện pháp bảo vệ cho đầu ra giọng nói.

Chúng tôi đã đánh giá GPT-4o theo Khung chuẩn bị của mình và phù hợp với các cam kết tự nguyện của mình . Đánh giá của chúng tôi về an ninh mạng, CBRN, thuyết phục và tính tự chủ của mô hình cho thấy GPT-4o không đạt điểm rủi ro trên Trung bình trong bất kỳ hạng mục nào trong số này. Đánh giá này bao gồm việc chạy một bộ đánh giá tự động và của con người trong suốt quá trình đào tạo mô hình. Chúng tôi đã thử nghiệm cả phiên bản mô hình trước khi giảm thiểu an toàn và sau khi giảm thiểu an toàn, sử dụng tinh chỉnh và lời nhắc tùy chỉnh để khai thác tốt hơn các khả năng của mô hình.

GPT-4o cũng đã trải qua quá trình làm việc nhóm đỏ bên ngoài mở rộng với hơn 70 chuyên gia bên ngoài trong các lĩnh vực như tâm lý xã hội, thiên vị và công bằng, và thông tin sai lệch để xác định các rủi ro được đưa vào hoặc khuếch đại bởi các phương thức mới được thêm vào. Chúng tôi đã sử dụng những bài học này để xây dựng các biện pháp can thiệp an toàn của mình nhằm cải thiện tính an toàn khi tương tác với GPT-4o. Chúng tôi sẽ tiếp tục giảm thiểu các rủi ro mới khi chúng được phát hiện.

 

Chúng tôi nhận ra rằng các phương thức âm thanh của GPT-4o có nhiều rủi ro mới. Hôm nay, chúng tôi sẽ công khai phát hành các đầu vào văn bản và hình ảnh cũng như đầu ra văn bản. Trong những tuần và tháng tới, chúng tôi sẽ làm việc trên cơ sở hạ tầng kỹ thuật, khả năng sử dụng thông qua đào tạo sau và tính an toàn cần thiết để phát hành các phương thức khác. Ví dụ, khi ra mắt, đầu ra âm thanh sẽ bị giới hạn ở một số giọng nói được cài đặt sẵn và sẽ tuân thủ các chính sách an toàn hiện có của chúng tôi. Chúng tôi sẽ chia sẻ thêm thông tin chi tiết về toàn bộ các phương thức của GPT-4o trong thẻ hệ thống sắp ra mắt.

Thông qua quá trình thử nghiệm và lặp lại mô hình, chúng tôi đã quan sát thấy một số hạn chế tồn tại trên tất cả các phương thức của mô hình, một số hạn chế trong số đó được minh họa bên dưới.

Chúng tôi rất mong nhận được phản hồi để giúp xác định các tác vụ mà GPT-4 Turbo vẫn hoạt động tốt hơn GPT-4o, để chúng tôi có thể tiếp tục cải thiện mô hình. 

Bảng điểm rủi ro ChatGPT-4o

Là một phần của Khung chuẩn bị , chúng tôi tiến hành đánh giá thường xuyên và cập nhật bảng điểm cho các mô hình của mình. Chỉ những mô hình có điểm sau khi giảm thiểu là “trung bình” hoặc thấp hơn mới được triển khai. Mức độ rủi ro chung cho một mô hình được xác định bởi mức độ rủi ro cao nhất trong bất kỳ danh mục nào. Hiện tại, GPT-4o được đánh giá ở mức rủi ro trung bình trước và sau các nỗ lực giảm thiểu.

Xem thêm: mua tài khoản Chat GPT Plus chính hãng giá rẻ

Tính khả dụng của mô hình

GPT-4o là bước tiến mới nhất của chúng tôi trong việc mở rộng ranh giới của học sâu, lần này theo hướng khả năng sử dụng thực tế. Chúng tôi đã dành nhiều nỗ lực trong hai năm qua để cải thiện hiệu quả ở mọi lớp của ngăn xếp. Là thành quả đầu tiên của nghiên cứu này, chúng tôi có thể cung cấp mô hình cấp độ GPT-4 rộng rãi hơn nhiều. Các khả năng của GPT-4o sẽ được triển khai theo từng bước (với quyền truy cập mở rộng của nhóm đỏ bắt đầu từ hôm nay). 

Khả năng văn bản và hình ảnh của GPT-4o đang bắt đầu triển khai hôm nay trong ChatGPT. Chúng tôi đang cung cấp GPT-4o ở cấp miễn phí và cho người dùng Plus có giới hạn tin nhắn cao hơn tới 5 lần. Chúng tôi sẽ triển khai phiên bản mới của Voice Mode với GPT-4o ở giai đoạn alpha trong ChatGPT Plus trong những tuần tới.

Các nhà phát triển hiện cũng có thể truy cập GPT-4o trong API dưới dạng mô hình văn bản và tầm nhìn. GPT-4o nhanh hơn gấp 2 lần, giá chỉ bằng một nửa và có giới hạn tốc độ cao hơn gấp 5 lần so với GPT-4 Turbo. Chúng tôi có kế hoạch triển khai hỗ trợ cho các khả năng âm thanh và video mới của GPT-4o cho một nhóm nhỏ các đối tác đáng tin cậy trong API trong những tuần tới.

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !