Nhúng văn bản và mã bằng cách đào tạo trước tương phản

Tóm tắt

Nhúng văn bản là các tính năng hữu ích trong nhiều ứng dụng như tìm kiếm ngữ nghĩa và tính toán độ tương đồng của văn bản. Các công trình trước đây thường đào tạo các mô hình tùy chỉnh cho các trường hợp sử dụng khác nhau, thay đổi về lựa chọn tập dữ liệu, mục tiêu đào tạo và kiến ​​trúc mô hình. Trong công trình này, chúng tôi chỉ ra rằng đào tạo trước tương phản trên dữ liệu không giám sát ở quy mô lớn dẫn đến các biểu diễn vectơ chất lượng cao của văn bản và mã. Các nhúng văn bản không giám sát tương tự đạt được kết quả tiên tiến mới trong phân loại thăm dò tuyến tính cũng hiển thị khả năng tìm kiếm ngữ nghĩa ấn tượng và đôi khi thậm chí còn hoạt động cạnh tranh với các mô hình được tinh chỉnh. Về độ chính xác phân loại thăm dò tuyến tính trung bình trên 7 tác vụ, mô hình không giám sát tốt nhất của chúng tôi đạt được mức cải thiện tương đối là 4% và 1,8% so với các mô hình nhúng văn bản có giám sát và không giám sát tốt nhất trước đây. Các nhúng văn bản tương tự khi được đánh giá trên tìm kiếm ngữ nghĩa quy mô lớn đạt được mức cải thiện tương đối là 23,4%, 14,7% và 10,6% so với các phương pháp không giám sát tốt nhất trước đây trên các điểm chuẩn MSMARCO, Natural Questions và TriviaQA. Tương tự như nhúng văn bản, chúng tôi đào tạo các mô hình nhúng mã trên các cặp (văn bản, mã), đạt được mức cải thiện tương đối 20,8% so với công trình tốt nhất trước đây về tìm kiếm mã.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt hấp dẫn!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !