zalo
Chat ngay

Mô hình nhúng mới và cải tiến

Chúng tôi rất vui mừng được công bố một mô hình nhúng mới có khả năng tốt hơn đáng kể, tiết kiệm chi phí và dễ sử dụng hơn

Mô hình mới, text-embedding-ada-002, thay thế năm mô hình riêng biệt để tìm kiếm văn bản, tìm kiếm độ tương đồng văn bản và tìm kiếm mã, và vượt trội hơn mô hình có khả năng nhất trước đây của chúng tôi là Davinci ở hầu hết các tác vụ, trong khi có giá thấp hơn 99,8%.

 

Nhúng là các biểu diễn số của các khái niệm được chuyển đổi thành chuỗi số, giúp máy tính dễ dàng hiểu được mối quan hệ giữa các khái niệm đó. Kể từ khi  ra mắt  OpenAI nhúng ban đầu (mở trong cửa sổ mới) Điểm cuối, nhiều ứng dụng đã tích hợp nhúng để cá nhân hóa, đề xuất và tìm kiếm nội dung.

 

Cải tiến mô hình

Hiệu suất mạnh hơn .  text-embedding-ada-002 vượt trội hơn tất cả các mô hình nhúng cũ về tìm kiếm văn bản, tìm kiếm mã và các tác vụ tương tự câu và đạt được hiệu suất tương đương về phân loại văn bản. Đối với mỗi danh mục tác vụ, chúng tôi đánh giá các mô hình trên các tập dữ liệu được sử dụng trong  các nhúng cũ (mở trong cửa sổ mới).

 

 

 

 

Bộ dữ liệu: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Thống nhất các khả năng . Chúng tôi đã đơn giản hóa đáng kể giao diện của  /embeddings (mở trong cửa sổ mới) điểm cuối bằng cách hợp nhất năm mô hình riêng biệt được hiển thị ở trên ( text-similarity,  text-search-query,  text-search-doc,  code-search-text và  code-search-code) thành một mô hình mới duy nhất. Biểu diễn đơn này hoạt động tốt hơn các mô hình nhúng trước đây của chúng tôi trên một tập hợp đa dạng các điểm chuẩn tìm kiếm văn bản, độ tương đồng của câu và tìm kiếm mã.

Ngữ cảnh dài hơn.  Độ dài ngữ cảnh của mô hình mới được tăng lên gấp bốn lần, từ 2048 lên 8192, giúp làm việc với các tài liệu dài thuận tiện hơn.

Kích thước nhúng nhỏ hơn.  Các nhúng mới chỉ có 1536 chiều, bằng một phần tám kích thước của  davinci-001 các nhúng, giúp các nhúng mới tiết kiệm chi phí hơn khi làm việc với cơ sở dữ liệu vector.

Giảm giá.  Chúng tôi đã giảm giá các mẫu nhúng mới 90% so với các mẫu cũ cùng kích thước. Mẫu mới đạt hiệu suất tốt hơn hoặc tương tự như các mẫu Davinci cũ với mức giá thấp hơn 99,8%.

Nhìn chung, mô hình nhúng mới là một công cụ mạnh mẽ hơn nhiều cho xử lý ngôn ngữ tự nhiên và các tác vụ mã. Chúng tôi rất vui mừng khi thấy khách hàng của mình sẽ sử dụng nó như thế nào để tạo ra các ứng dụng có khả năng hơn nữa trong các lĩnh vực tương ứng của họ.

Hạn chế

Mô hình mới  text-embedding-ada-002 không vượt trội hơn  text-similarity-davinci-001 so với chuẩn phân loại thăm dò tuyến tính SentEval. Đối với các tác vụ yêu cầu đào tạo lớp tuyến tính có trọng số nhẹ trên các vectơ nhúng để dự đoán phân loại, chúng tôi đề xuất so sánh mô hình mới với  text-similarity-davinci-001 và chọn bất kỳ mô hình nào mang lại hiệu suất tối ưu.

Kiểm tra  các hạn chế và rủi ro (mở trong cửa sổ mới) phần trong tài liệu nhúng để biết những hạn chế chung của các mô hình nhúng của chúng tôi.

Ví dụ về API nhúng trong hành động

AI lịch (mở trong cửa sổ mới) là một sản phẩm tiếp cận bán hàng sử dụng nhúng để khớp đúng lời chào hàng với đúng khách hàng từ một tập dữ liệu chứa 340 triệu hồ sơ. Tự động hóa này dựa trên sự tương đồng giữa nhúng hồ sơ khách hàng và lời chào hàng để xếp hạng các kết quả phù hợp nhất, loại bỏ 40–56% mục tiêu không mong muốn so với cách tiếp cận cũ của họ.

Khái niệm (mở trong cửa sổ mới), công ty không gian làm việc trực tuyến, sẽ sử dụng công nghệ nhúng mới của OpenAI để cải thiện khả năng tìm kiếm của Notion vượt xa các hệ thống khớp từ khóa hiện nay.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !