Khám phá các loại để phân biệt thực thể

Ví dụ, với một câu như "con mồi nhìn thấy báo đốm băng qua rừng", thay vì cố gắng lý luận trực tiếp xem báo đốm có nghĩa là xe hơi, động vật hay thứ gì khác, hệ thống sẽ chơi "20 câu hỏi" với một tập hợp các danh mục được chọn trước. Cách tiếp cận này mang lại sự thúc đẩy lớn về trình độ tiên tiến trên một số tập dữ liệu phân biệt thực thể.

Tài khoản ChatGPT Plus với nhiều ưu đãi đặc biệt

Chúng tôi đạt được độ chính xác 94,88% trên CoNLL (YAGO)(mở trong cửa sổ mới) (tình trạng nghệ thuật trước đây: 91,50(mở trong cửa sổ mới)%, 91,70(mở trong cửa sổ mới)%) và 90,85% trong thử thách TAC KBP 2010(mở trong cửa sổ mới) (tình trạng nghệ thuật trước đây: 87,20(mở trong cửa sổ mới)%, và 87,70(mở trong cửa sổ mới)%). Các phương pháp trước đây sử dụng biểu diễn phân tán(mở trong cửa sổ mới). Các kiểu dữ liệu có thể đi đến tận cùng trong các nhiệm vụ này, vì dự đoán kiểu dữ liệu hoàn hảo sẽ mang lại độ chính xác 98,6-99%.

Tổng quan cấp cao

Hệ thống của chúng tôi sử dụng các bước sau:

+ Trích xuất mọi liên kết nội bộ Wikipedia để xác định, đối với mỗi từ, tập hợp các thực thể có thể tưởng tượng được mà nó có thể tham chiếu đến . Ví dụ, khi gặp liên kết [jaguar](https://en.wikipedia.org/wiki/Jaguar) trong trang Wikipedia, chúng tôi kết luận rằng đó https://en.wikipedia.org/wiki/Jaguar là một trong những nghĩa của jaguar.

+ Đi bộ trên cây danh mục Wikipedia (sử dụng Wikidata (mở trong cửa sổ mới) đồ thị kiến thức) để xác định, đối với mỗi thực thể, tập hợp các danh mục mà nó thuộc về . Ví dụ, ở cuối trang Wikipedia về ô tô Jaguar(mở trong cửa sổ mới)là các danh mục sau (bản thân chúng có các danh mục riêng, chẳng hạn như Ô tô(mở trong cửa sổ mới)): “Thương hiệu Anh | Thương hiệu ô tô | Xe hơi Jaguar | Xe Jaguar.”

+ Chọn một danh sách khoảng 100 danh mục làm hệ thống “kiểu” của bạn và tối ưu hóa danh mục lựa chọn này để chúng thể hiện một cách cô đọng bất kỳ thực thể nào . Chúng ta biết cách ánh xạ các thực thể thành các danh mục, do đó, với một hệ thống kiểu, chúng ta có thể biểu diễn mỗi thực thể dưới dạng một vectơ nhị phân khoảng 100 chiều biểu thị tư cách thành viên trong mỗi danh mục.

+ Sử dụng mọi liên kết nội bộ Wikipedia và ngữ cảnh xung quanh, tạo dữ liệu đào tạo ánh xạ một từ cộng với ngữ cảnh thành biểu diễn nhị phân ~100 chiều của thực thể tương ứng và đào tạo mạng nơ-ron để dự đoán ánh xạ này . Điều này liên kết các bước trước đó: Liên kết Wikipedia ánh xạ một từ thành một thực thể, chúng ta biết các danh mục cho từng thực thể từ bước 2 và bước 3 chọn các danh mục trong hệ thống loại của chúng ta.

+ Vào thời điểm kiểm tra, với một từ và ngữ cảnh xung quanh, đầu ra của mạng nơ-ron của chúng ta có thể được diễn giải là xác suất từ đó thuộc về từng loại . Nếu chúng ta biết chính xác tập hợp các thành viên loại, chúng ta sẽ thu hẹp lại thành một thực thể (giả sử các loại được lựa chọn tốt). Nhưng thay vào đó, chúng ta phải chơi một trò chơi xác suất gồm 20 câu hỏi: sử dụng định lý Bayes(mở trong cửa sổ mới) để tính toán khả năng từ có thể chuyển nghĩa thành từng thực thể có thể có của nó.

Làm sạch dữ liệu

Biểu đồ kiến thức của Wikidata có thể được chuyển thành nguồn dữ liệu đào tạo để ánh xạ các thực thể chi tiết thành các loại. Chúng tôi áp dụng nó instance of(mở trong cửa sổ mới) quan hệ đệ quy để xác định tập hợp các kiểu cho bất kỳ thực thể nào được đưa ra — ví dụ, bất kỳ nút con nào của con người(mở trong cửa sổ mới) nút có kiểu con người. Wikipedia cũng có thể cung cấp ánh xạ thực thể sang kiểu thông qua category link(mở trong cửa sổ mới).

Thống kê liên kết nội bộ của Wikipedia cung cấp ước tính tốt về khả năng một cụm từ cụ thể đề cập đến một số thực thể. Tuy nhiên, điều này gây nhiễu vì Wikipedia thường liên kết đến trường hợp cụ thể của một loại thay vì chính loại đó (anaphora(mở trong cửa sổ mới) — ví dụ vua → Charles I của Anh) hoặc liên kết từ biệt danh ( hoán dụ(mở trong cửa sổ mới)). Điều này dẫn đến sự bùng nổ của các thực thể liên quan (ví dụ vua có 974 thực thể liên quan) và tần số liên kết bị bóp méo (ví dụ nữ hoàng liên kết với băng tần nữ hoàng(mở trong cửa sổ mới) 4920 lần, Elizabeth II 1430 lần, và quân chủ(mở trong cửa sổ mới) chỉ 32 lần).

Cách dễ nhất là cắt tỉa(mở trong cửa sổ mới) hiếm liên kết, nhưng điều này làm mất thông tin. Thay vào đó, chúng tôi sử dụng biểu đồ thuộc tính Wikidata để chuyển đổi liên kết theo phương pháp kinh nghiệm thành ý nghĩa "chung" của chúng, như minh họa bên dưới.

Sau quá trình này, vua đi từ 974 đến 14 thực thể liên kết, trong khi số lượng liên kết từ nữ hoàng đến quốc vương tăng từ 32 đến 3553.

Học một hệ thống kiểu tốt

Chúng ta cần chọn hệ thống loại và tham số tốt nhất sao cho độ chính xác của việc loại bỏ sự mơ hồ được tối đa hóa. Có rất nhiều tập hợp các loại có thể có, khiến cho việc tìm kiếm chính xác trở nên khó khăn. Thay vào đó, chúng ta sử dụng tìm kiếm theo phương pháp heuristic hoặc tối ưu hóa ngẫu nhiên (thuật toán tiến hóa) để chọn hệ thống loại và giảm dần độ dốc để đào tạo bộ phân loại loại nhằm dự đoán hành vi của hệ thống loại.

Chúng ta cần chọn các loại có khả năng phân biệt (để nhanh chóng thu hẹp tập hợp các thực thể có thể), đồng thời dễ học (để bối cảnh xung quanh có thông tin cho mạng nơ-ron suy ra rằng một loại áp dụng). Chúng ta thông báo tìm kiếm của mình bằng hai phương pháp tìm kiếm: khả năng học (trung bình của diện tích dưới đường cong(mở trong cửa sổ mới) [AUC] điểm của bộ phân loại được đào tạo để dự đoán thành viên kiểu) và độ chính xác của thuật toán (mức độ chúng ta có thể phân biệt các thực thể tốt như thế nào nếu chúng ta dự đoán hoàn hảo tất cả các kiểu).

Sự tiến hóa của hệ thống kiểu

Chúng tôi đào tạo các bộ phân loại nhị phân để dự đoán tư cách thành viên trong mỗi loại phổ biến nhất trong 150.000 loại trong tập dữ liệu của chúng tôi, với một cửa sổ ngữ cảnh. Diện tích bên dưới đường cong (AUC) của bộ phân loại trở thành “điểm khả năng học” cho loại đó. AUC cao có nghĩa là dễ dự đoán loại này từ ngữ cảnh; hiệu suất kém có thể có nghĩa là chúng ta có ít dữ liệu đào tạo hoặc cửa sổ từ không thực sự hữu ích (điều này có xu hướng đúng đối với các danh mục không tự nhiên như ISBN. Mô hình đầy đủ của chúng tôi mất vài ngày để đào tạo, vì vậy chúng tôi sử dụng một mô hình nhỏ hơn nhiều làm đại diện cho “điểm khả năng học” của mình, chỉ mất 2,5 giây để đào tạo.

Bây giờ chúng ta có thể sử dụng các điểm số khả năng học tập này và thống kê đếm để ước tính hiệu suất của một tập hợp con các kiểu nhất định làm hệ thống kiểu của chúng ta. Dưới đây, bạn có thể chạy Phương pháp Cross Entropy để khám phá các loại trong trình duyệt của bạn. Lưu ý cách thay đổi kích thước mẫu và hình phạt ảnh hưởng đến giải pháp.

Để hình dung rõ hơn về những phần nào của thiết kế hệ thống kiểu dễ và khó, chúng tôi mời bạn thử sức với việc thiết kế hệ thống kiểu của riêng bạn bên dưới. Sau khi chọn một miền cấp cao, bạn có thể bắt đầu xem các ví dụ mơ hồ. Các câu trả lời có thể được hiển thị dưới dạng các vòng tròn ở hàng trên cùng và câu trả lời đúng là vòng tròn có màu (di chuột để xem tên của vòng tròn đó). Hàng dưới cùng chứa các kiểu bạn có thể sử dụng. Các đường nối hàng trên cùng với hàng dưới cùng là các mối quan hệ kế thừa. Chọn các mối quan hệ bạn muốn. Khi bạn có đủ các mối quan hệ để tách câu trả lời đúng khỏi các câu trả lời còn lại, ví dụ sẽ được giải thích rõ ràng.

Hệ thống loại thần kinh

Sử dụng giải pháp hàng đầu từ tối ưu hóa hệ thống loại của chúng tôi, giờ đây chúng tôi có thể dán nhãn dữ liệu từ Wikipedia bằng các nhãn do hệ thống loại tạo ra. Sử dụng dữ liệu này (trong các thử nghiệm của chúng tôi, 400M mã thông báo cho mỗi tiếng Anh và tiếng Pháp), giờ đây chúng tôi có thể đào tạo LSTM hai chiều để dự đoán độc lập tất cả các thành viên loại cho mỗi từ. Trên văn bản nguồn Wikipedia, chúng tôi chỉ có sự giám sát trên các liên kết nội bộ wiki, tuy nhiên điều này đủ để đào tạo một mạng nơ-ron sâu để dự đoán thành viên loại với F1 trên 0,91.

Một trong những hệ thống kiểu của chúng tôi, được phát hiện bằng tìm kiếm chùm tia, bao gồm các kiểu như Aviation, Clothing, và Games (cũng như các kiểu cụ thể đáng ngạc nhiên như 1754 in Canada—chỉ ra năm 1754 là một năm thú vị trong tập dữ liệu gồm 1.000 bài viết Wikipedia mà nó được đào tạo); bạn cũng có thể xem toàn bộ hệ thống kiểu.

Suy luận

Dự đoán các thực thể trong một tài liệu thường dựa vào một số liệu "tính nhất quán" giữa các thực thể khác nhau, ví dụ, đo lường mức độ phù hợp của từng thực thể với nhau, nằm O(N^2) trong độ dài của tài liệu. Thay vào đó, thời gian chạy của chúng tôi là O(N) khi chúng tôi chỉ cần tra cứu từng cụm từ trong một bộ ba ánh xạ các cụm từ với các nghĩa có thể có của chúng. Chúng tôi xếp hạng từng thực thể có thể theo tần suất liên kết được thấy trong Wikipedia, được tinh chỉnh bằng cách cân nhắc từng thực thể theo khả năng xảy ra của nó theo bộ phân loại loại. Có thể thêm các thực thể mới chỉ bằng cách chỉ định tư cách thành viên loại của chúng (người, động vật, quốc gia xuất xứ, khoảng thời gian, v.v.).

Các bước tiếp theo

Cách tiếp cận của chúng tôi có nhiều điểm khác biệt so với công trình trước đây về vấn đề này. Chúng tôi quan tâm đến việc học tập đầu cuối của các biểu diễn phân tán tốt như thế nào(mở trong cửa sổ mới)thực hiện so với suy luận dựa trên kiểu mà chúng tôi phát triển ở đây. Các hệ thống kiểu ở đây được phát hiện bằng cách sử dụng một tập hợp con Wikipedia nhỏ; mở rộng quy mô cho toàn bộ Wikipedia có thể khám phá ra một hệ thống kiểu có ứng dụng rộng rãi. Chúng tôi hy vọng bạn thấy mã của chúng tôi hữu ích!

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ