zalo
Chat ngay

Cải thiện khả năng hiểu ngôn ngữ bằng cách học không giám sát

Chúng tôi đã thu được kết quả tiên tiến nhất về một bộ các nhiệm vụ ngôn ngữ đa dạng với một hệ thống có thể mở rộng, không phụ thuộc vào nhiệm vụ, mà chúng tôi cũng đang phát hành. Phương pháp tiếp cận của chúng tôi là sự kết hợp của hai ý tưởng hiện có: bộ chuyển đổi và  đào tạo trước không có giám sát. Những kết quả này cung cấp một ví dụ thuyết phục rằng việc ghép nối các phương pháp học có giám sát với đào tạo trước không giám sát hoạt động rất tốt; đây là một ý tưởng mà nhiều người đã khám phá trong quá khứ và chúng tôi hy vọng kết quả của chúng tôi sẽ thúc đẩy nghiên cứu sâu hơn về việc áp dụng ý tưởng này trên các tập dữ liệu lớn hơn và đa dạng hơn.

Bộ dữ liệu

Nhiệm vụ

DƯỚI

Của chúng tôi

SNLI

Sự hàm ý của văn bản

89,3

89,9

MNLI phù hợp

Sự hàm ý của văn bản

80,6

82,1

MNLI không khớp

Sự hàm ý của văn bản

80,1

81,4

Khoa học

Sự hàm ý của văn bản

83,3

88,3

QNLI

Sự hàm ý của văn bản

82,3

88,1

RTE

Sự hàm ý của văn bản

61,7

56.0

STS-B

Sự tương đồng về mặt ngữ nghĩa

81.0

82.0

QQP

Sự tương đồng về mặt ngữ nghĩa

66,1

70,3

MRPC

Sự tương đồng về mặt ngữ nghĩa

86.0

82,3

LOÀI

Đọc hiểu

53,3

59.0

Câu chuyện ROCS

Lý luận thông thường

77,6

86,5

TÁCH

Lý luận thông thường

71,2

78,6

SST-2

Phân tích tình cảm

93,2

91,3

CoLA

Sự chấp nhận về mặt ngôn ngữ

35.0

45,4

KEO DÁN

Điểm chuẩn đa nhiệm vụ

68,9

72,8

Hệ thống của chúng tôi hoạt động theo hai giai đoạn; đầu tiên, chúng tôi đào tạo một mô hình biến đổi trên một lượng dữ liệu rất lớn theo cách không giám sát—sử dụng mô hình ngôn ngữ làm tín hiệu đào tạo—sau đó chúng tôi tinh chỉnh mô hình này trên các tập dữ liệu có giám sát nhỏ hơn nhiều để giúp nó giải quyết các nhiệm vụ cụ thể. Chúng tôi đã phát triển phương pháp tiếp cận này sau  công trình nghiên cứu về nơ-ron tình cảm của  mình, trong đó chúng tôi lưu ý rằng các kỹ thuật học không giám sát có thể tạo ra các tính năng phân biệt đáng ngạc nhiên khi được đào tạo trên đủ dữ liệu. Ở đây, chúng tôi muốn khám phá sâu hơn ý tưởng này: chúng ta có thể phát triển một mô hình, đào tạo nó theo cách không giám sát trên một lượng dữ liệu lớn, sau đó tinh chỉnh mô hình để đạt được hiệu suất tốt trên nhiều nhiệm vụ khác nhau không? Kết quả của chúng tôi chỉ ra rằng phương pháp tiếp cận này hoạt động tốt một cách đáng ngạc nhiên; cùng một mô hình cốt lõi có thể được tinh chỉnh cho các nhiệm vụ rất khác nhau với khả năng thích ứng tối thiểu.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Công trình này xây dựng dựa trên phương pháp tiếp cận được giới thiệu trong học trình tự bán giám sát, cho thấy cách cải thiện hiệu suất phân loại tài liệu bằng cách sử dụng tiền đào tạo không giám sát của LSTM tiếp theo là tinh chỉnh có giám sát. Nó cũng mở rộng  ULMFiT, nghiên cứu cho thấy cách một mô hình ngôn ngữ LSTM không phụ thuộc vào tập dữ liệu đơn lẻ có thể được tinh chỉnh để đạt được hiệu suất tiên tiến trên nhiều tập dữ liệu phân loại tài liệu; công trình của chúng tôi cho thấy cách một mô hình dựa trên Transformer có thể được sử dụng trong phương pháp tiếp cận này để thành công trong nhiều nhiệm vụ hơn ngoài phân loại tài liệu, chẳng hạn như suy luận theo lẽ thường, sự tương đồng về mặt ngữ nghĩa và hiểu đọc. Nó cũng tương tự nhưng không phụ thuộc vào nhiệm vụ hơn  ELMo, kết hợp đào tạo trước nhưng sử dụng kiến ​​trúc tùy chỉnh theo tác vụ để có được kết quả tiên tiến nhất trên nhiều tác vụ.

Rất ít điều chỉnh được sử dụng để đạt được kết quả của chúng tôi. Tất cả các tập dữ liệu đều sử dụng một mô hình ngôn ngữ chuyển tiếp duy nhất, không có bất kỳ sự kết hợp nào và phần lớn các kết quả được báo cáo đều sử dụng cùng một thiết lập siêu tham số chính xác.

Một kết quả mà chúng tôi đặc biệt phấn khích là hiệu suất của phương pháp tiếp cận của chúng tôi trên ba tập dữ liệu— COPA),  loài và  ROCStories—được thiết kế để kiểm tra lý luận thông thường và khả năng đọc hiểu. Mô hình của chúng tôi thu được kết quả mới nhất về các tập dữ liệu này với biên độ rộng. Người ta cho rằng các tập dữ liệu này đòi hỏi lý luận nhiều câu và kiến ​​thức thế giới đáng kể để giải quyết, cho thấy mô hình của chúng tôi cải thiện các kỹ năng này chủ yếu thông qua học không giám sát. Điều này cho thấy có hy vọng phát triển khả năng hiểu ngôn ngữ phức tạp thông qua các kỹ thuật không giám sát.

Tại sao lại sử dụng học không giám sát?

Học có giám sát là cốt lõi của hầu hết thành công gần đây của học máy. Tuy nhiên, nó có thể đòi hỏi phải có quy mô lớn, được làm sạch cẩn thận và tốn kém để tạo ra các tập dữ liệu hoạt động tốt. Học không giám sát hấp dẫn vì tiềm năng giải quyết những nhược điểm này. Vì học không giám sát loại bỏ nút thắt cổ chai của việc dán nhãn rõ ràng của con người nên nó cũng mở rộng tốt với xu hướng hiện tại của việc  tăng cường tính toán và tính khả dụng của dữ liệu thô. Học không giám sát là một tích cực(mở trong cửa sổ mới) khu vực của nghiên cứu nhưng ứng dụng thực tế của nó thường vẫn còn hạn chế.

Gần đây đã có một nỗ lực nhằm cố gắng nâng cao khả năng ngôn ngữ bằng cách sử dụng học không giám sát để tăng cường các hệ thống với lượng lớn dữ liệu không có nhãn; các biểu diễn của các từ được đào tạo thông qua các kỹ thuật không giám sát có thể sử dụng các tập dữ liệu lớn bao gồm hàng terabyte thông tin và khi được tích hợp với học có giám sát, cải thiện hiệu suất trên nhiều tác vụ NLP. Cho đến gần đây, các kỹ thuật không giám sát này cho NLP (ví dụ: GLoVe và word2vec) sử dụng các mô hình đơn giản (vectơ từ) và tín hiệu đào tạo (sự xuất hiện đồng thời tại địa phương của các từ). Là một minh chứng ban đầu đáng chú ý về những cải tiến tiềm năng mà các phương pháp tiếp cận phức tạp hơn có thể thực hiện được. Nhưng các kỹ thuật mới hiện đang được sử dụng giúp tăng cường hiệu suất hơn nữa. Chúng bao gồm việc sử dụng các mô hình biểu diễn câu được đào tạo trước, các vectơ từ ngữ theo ngữ cảnh (đặc biệt là  ELMo và CoV), và các phương pháp sử dụng kiến ​​trúc tùy chỉnh để kết hợp quá trình đào tạo trước không giám sát với quá trình điều chỉnh có giám sát, giống như phương pháp của chúng tôi.

Chúng tôi cũng nhận thấy rằng chúng tôi có thể sử dụng mô hình ngôn ngữ cơ bản để bắt đầu thực hiện các tác vụ mà không cần phải đào tạo về chúng. Ví dụ, hiệu suất của các tác vụ như chọn câu trả lời đúng cho một câu hỏi trắc nghiệm tăng dần khi mô hình ngôn ngữ cơ bản được cải thiện. Mặc dù hiệu suất tuyệt đối của các phương pháp này vẫn thường khá thấp so với trạng thái hiện đại có giám sát (đối với việc trả lời câu hỏi, nó vẫn vượt trội hơn so với đường cơ sở cửa sổ trượt đơn giản), nhưng điều đáng khích lệ là hành vi này mạnh mẽ trên một tập hợp rộng các tác vụ. Các mạng được khởi tạo ngẫu nhiên không chứa thông tin về tác vụ và thế giới không hoạt động tốt hơn ngẫu nhiên khi sử dụng các phương pháp tìm kiếm này. Điều này cung cấp một số hiểu biết sâu sắc về lý do tại sao đào tạo trước tạo sinh có thể cải thiện hiệu suất của các tác vụ hạ lưu.

Chúng ta cũng có thể sử dụng chức năng ngôn ngữ hiện có trong mô hình để thực hiện phân tích tình cảm. Đối với tập dữ liệu Stanford Sentiment Treebank, bao gồm các câu từ các bài đánh giá phim tích cực và tiêu cực, chúng ta có thể sử dụng mô hình ngôn ngữ để đoán xem một bài đánh giá là tích cực hay tiêu cực bằng cách nhập từ "rất" sau câu và xem liệu mô hình có dự đoán từ "tích cực" hay "tiêu cực" có nhiều khả năng xảy ra hơn không. Cách tiếp cận này, mà không cần điều chỉnh mô hình cho nhiệm vụ, thực hiện ngang bằng với các đường cơ sở cổ điển với  độ chính xác ~80%.

Công trình của chúng tôi cũng là sự xác nhận về độ bền và tính hữu ích của kiến ​​trúc máy biến áp, cho thấy nó đủ linh hoạt để đạt được kết quả tiên tiến trên nhiều tác vụ khác nhau mà không cần tùy chỉnh phức tạp cho từng tác vụ cụ thể hoặc điều chỉnh siêu tham số.

Nhược điểm

Dự án này có một số vấn đề nổi bật đáng lưu ý:

+ Yêu cầu tính toán : Nhiều cách tiếp cận trước đây đối với các tác vụ NLP đào tạo các mô hình tương đối nhỏ trên một GPU duy nhất từ ​​đầu. Cách tiếp cận của chúng tôi yêu cầu một bước đào tạo trước tốn kém—1 tháng trên 8 GPU. May mắn thay, điều này chỉ phải được thực hiện một lần và chúng tôi đang phát hành mô hình của mình để những người khác có thể tránh được. Đây cũng là một mô hình lớn (so với công việc trước đây) và do đó sử dụng nhiều tính toán và bộ nhớ hơn—chúng tôi đã sử dụng kiến ​​trúc Transformer 37 lớp (12 khối) và chúng tôi đào tạo trên các chuỗi lên đến 512 mã thông báo. Hầu hết các thí nghiệm được tiến hành trên các hệ thống 4 và 8 GPU. Mô hình tinh chỉnh các tác vụ mới rất nhanh chóng, giúp giảm thiểu các yêu cầu về tài nguyên bổ sung.

+ Giới hạn và sự thiên vị trong việc tìm hiểu về thế giới thông qua văn bản : Sách và văn bản có sẵn trên internet không chứa thông tin đầy đủ hoặc thậm chí chính xác về thế giới.  Công trình gần đây đã chỉ ra rằng một số loại thông tin khó có thể học được chỉ thông qua văn bản và  các công việc khác đã chỉ ra rằng các mô hình học và khai thác các sai lệch trong phân phối dữ liệu.

+ Tổng quát hóa vẫn còn mong manh : Mặc dù cách tiếp cận của chúng tôi cải thiện hiệu suất trên nhiều tác vụ, các mô hình NLP học sâu hiện tại vẫn thể hiện hành vi đáng ngạc nhiên và phản trực giác - đặc biệt là khi được đánh giá theo cách có hệ thống, đối đầu hoặc không phân phối. Cách tiếp cận của chúng tôi không miễn nhiễm với những vấn đề này, mặc dù chúng tôi đã quan sát thấy một số dấu hiệu tiến bộ. Cách tiếp cận của chúng tôi cho thấy sự mạnh mẽ về mặt từ vựng được cải thiện so với các cách tiếp cận thuần túy về mặt thần kinh trước đây đối với sự suy diễn văn bản. Về tập dữ liệu được giới thiệu trong  Glockner et al. (2018) mô hình của chúng tôi đạt 83,75%, hoạt động tương tự như  KIM, kết hợp kiến ​​thức bên ngoài thông qua WordNet.

Tương lai

+ Mở rộng phương pháp tiếp cận : Chúng tôi đã quan sát thấy rằng những cải tiến về hiệu suất của mô hình ngôn ngữ có mối tương quan tốt với những cải tiến về các tác vụ hạ nguồn. Hiện tại, chúng tôi đang sử dụng phần cứng hàng hóa (một máy 8 GPU) và một tập dữ liệu đào tạo chỉ gồm vài nghìn cuốn sách (~5GB văn bản). Điều này cho thấy có nhiều chỗ để cải thiện bằng cách sử dụng phương pháp tiếp cận được xác thực tốt về tính toán và dữ liệu nhiều hơn.

+ Cải thiện tinh chỉnh : Cách tiếp cận của chúng tôi hiện rất đơn giản. Có khả năng cải thiện đáng kể bằng cách sử dụng các kỹ thuật chuyển giao và thích ứng phức tạp hơn như những kỹ thuật được khám phá trong ULMFiT.

+ Hiểu rõ hơn về lý do tại sao đào tạo trước tạo ra lại hữu ích : Mặc dù chúng tôi đã thảo luận một số ý tưởng mà chúng tôi thiên vị ở đây, các thí nghiệm và nghiên cứu có mục tiêu hơn sẽ giúp phân biệt giữa các giải thích cạnh tranh. Ví dụ, bao nhiêu lợi ích mà chúng tôi quan sát được là do khả năng xử lý bối cảnh rộng hơn được cải thiện so với kiến ​​thức thế giới được cải thiện?

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !