.png)
Chúng tôi đã tinh chỉnh mô hình ngôn ngữ tham số 774M GPT-2 bằng cách sử dụng phản hồi của con người cho nhiều tác vụ khác nhau, thành công trong việc khớp các sở thích của người dán nhãn bên ngoài, mặc dù các sở thích đó không phải lúc nào cũng khớp với sở thích của chúng tôi. Cụ thể, đối với các tác vụ tóm tắt, người dán nhãn thích các câu được sao chép toàn bộ từ đầu vào (chúng tôi chỉ yêu cầu họ đảm bảo độ chính xác), vì vậy các mô hình của chúng tôi đã học cách sao chép. Tóm tắt cần 60k nhãn của con người; các tác vụ đơn giản hơn tiếp tục văn bản theo nhiều kiểu khác nhau chỉ cần 5k. Động lực của chúng tôi là đưa các kỹ thuật an toàn đến gần hơn với nhiệm vụ chung là "máy móc nói chuyện với con người", mà chúng tôi tin là chìa khóa để trích xuất thông tin về các giá trị của con người.
Chúng tôi tin rằng ngôn ngữ là thành phần quan trọng trong việc làm cho việc học tăng cường trở nên thiết thực và an toàn cho các nhiệm vụ trong thế giới thực. Công việc trước đây về các mô hình học tập về sở thích của con người đã tập trung vào các môi trường mô phỏng đơn giản (trò chơi Atari hoặc nhiệm vụ robot) không nắm bắt được sự phức tạp của ngôn ngữ. Ngôn ngữ cũng là một thành phần cần thiết cho các thuật toán như khuếch đại và tranh luận, nhắm mục tiêu vào lý luận đằng sau sở thích.
Công trình này áp dụng việc học sở thích của con người vào một số nhiệm vụ ngôn ngữ tự nhiên: tiếp tục văn bản với tình cảm tích cực hoặc ngôn ngữ mô tả vật lý bằng cách sử dụng BookCorpus và tóm tắt nội dung từ TL;DR và CNN/Daily Mail bộ dữ liệu. Mỗi nhiệm vụ này có thể được xem như một bài toán hoàn thành văn bản: bắt đầu với một số văn bản X , chúng tôi hỏi văn bản Y nào nên theo sau.
Chúng tôi bắt đầu với một mô hình ngôn ngữ được đào tạo trước (phiên bản tham số 774M của GPT-2) và tinh chỉnh mô hình bằng cách hỏi người dán nhãn mẫu nào trong bốn mẫu là tốt nhất. Tinh chỉnh cho các nhiệm vụ tiếp tục theo phong cách là hiệu quả mẫu: 5.000 mẫu của con người là đủ để có hiệu suất mạnh mẽ theo con người. Đối với tóm tắt, các mô hình được đào tạo với 60.000 phép so sánh học cách sao chép toàn bộ câu từ đầu vào trong khi bỏ qua phần mở đầu không liên quan; việc sao chép này là một cách dễ dàng để đảm bảo tóm tắt chính xác, nhưng có thể khai thác thực tế là người dán nhãn dựa vào các phương pháp tìm kiếm đơn giản.
Tiếp tục văn bản theo phong cách
Đối với các nhiệm vụ tiếp tục về phong cách, các mẫu so sánh mô hình 774M GPT-2 thô và các phiên bản tinh chỉnh của chúng tôi được hiển thị bên dưới.
Theo những người dán nhãn giống như con người dùng để đào tạo chúng, các mô hình được tinh chỉnh của chúng tôi được ưa chuộng hơn mô hình GPT-2 cơ sở (zero-shot) lần lượt là 88% và 86% về mặt tình cảm và tính mô tả.
Tóm tắt
Chúng tôi cũng áp dụng phương pháp tinh chỉnh của con người vào hai nhiệm vụ tóm tắt: tóm tắt các bài viết từ tập dữ liệu CNN/Daily Mail và tóm tắt các đoạn trích Reddit từ tập dữ liệu TL;DR.
Những nhiệm vụ này khó hơn: các mô hình chính của chúng tôi sử dụng 60.000 phép so sánh bốn chiều. Chúng tôi cũng cần thu thập dữ liệu trực tuyến , trong đó các mẫu được hiển thị cho con người được thu thập trong suốt quá trình đào tạo khi chính sách thay đổi; một chiến lược thu thập dữ liệu ngoại tuyến chỉ hiển thị cho con người các mẫu từ mô hình ngôn ngữ GPT-2 cơ sở hoạt động kém.
Các mô hình của chúng tôi đạt hiệu suất rất tốt theo đánh giá của người dán nhãn, nhưng có khả năng đang khai thác thực tế là người dán nhãn dựa vào các phương pháp tìm kiếm đơn giản: họ thích đường cơ sở lead-3 là sao chép ba câu đầu tiên cho các mô hình của chúng tôi. Tuy nhiên, khi kết hợp tinh chỉnh có giám sát với tinh chỉnh của con người, các mô hình của chúng tôi vượt trội hơn lead-3 về điểm ROUGE.
Các mẫu từ đường cơ sở không có cảnh báo và có giám sát, cũng như quá trình tinh chỉnh RL của từng mẫu được hiển thị bên dưới.
Người đọc có thể đã nhận thấy một vài điều về các mẫu này. Đầu tiên, mô hình tinh chỉnh RL của chúng tôi chủ yếu là một công cụ sao chép thông minh: nó thường tóm tắt nội dung bằng cách sao chép toàn bộ câu từ bài viết hoặc đoạn trích Reddit. Ngược lại, các mẫu tinh chỉnh zero-shot và giám sát mới lạ hơn:
Người mẫu | CNN/Daily Mail | tl;dr |
Tóm tắt tham khảo | 96,7 | 98,9 |
Không bắn | 91,7 | 96,3 |
Tinh chỉnh | 2,5 | 29.0 |
Được giám sát | 83,6 | 96,9 |
Được giám sát + điều chỉnh tốt | 69,6 | 94.0 |
Tính mới lạ của câu : Tỷ lệ các câu trong bản tóm tắt không xuất hiện trong văn bản gốc.
Mô hình tinh chỉnh RL có thay đổi tùy theo nơi nó sao chép: trong khi chúng sao chép phần đầu của đầu vào 28,3% và 77,6% thời gian trên TL;DR và CNN/Daily Mail, các con số này giảm xuống còn 0,2% và 1,4% nếu đầu vào bắt đầu bằng phần mở đầu không cung cấp thông tin (được định nghĩa là "hi", "hello", "hey", "ok", "okay", "so" đối với TL;DR hoặc dấu hai chấm trong ba từ đầu tiên đối với CNN/Daily Mail như "Người chiến thắng: Simon Wood đã mang về vương miện truyền hình [...]").
Hình ảnh trực quan bên dưới cho thấy sự thay đổi trong mô hình tóm tắt sao chép từ đâu, được minh họa bằng chuỗi con chung dài nhất của các bigram giữa ngữ cảnh và tóm tắt cho các ngữ cảnh được chọn ngẫu nhiên.
Thứ hai, trong khi các bản tóm tắt từ GPT-2 zero-shot và phiên bản tinh chỉnh có giám sát của GPT-2 mới lạ hơn khi đo bằng n-gram hoặc câu, chúng cũng mới lạ hơn về mặt nội dung. Nghĩa là, chúng không đúng:
Người mẫu | CNN/Daily Mail | tl;dr |
Không bắn | 6/30 | 6/30 |
Tinh chỉnh | 29/30 | 26/30 |
Được giám sát | 19/30 | 8/30 |
Được giám sát + điều chỉnh tốt | 20/30 | 11/30 |
Độ chính xác của tóm tắt : Tần suất chính xác của các bản tóm tắt được tạo ra, được tác giả đánh giá dựa trên 30 bài viết từ mỗi tập dữ liệu.
Có ít nhất hai cách để diễn giải những kết quả này. Cách thứ nhất là sao chép là cách dễ nhất để đạt được độ chính xác. Những người dán nhãn được yêu cầu phạt sự không chính xác nhưng không sao chép. Mô hình zero-shot sao chép một số lần và khi sao chép thì chính xác, do đó việc sao chép được củng cố. Kết quả là một mô hình chủ yếu là sao chép, nhưng ít nhất là không nói dối.
Xem thêm: mua tài khoản ChatGTP Plus chính hãng giá rẻ!
Tuy nhiên, điều này không giải thích đầy đủ kết quả đánh giá của con người: cả mô hình của chúng tôi và đường cơ sở lead-3 đơn giản sao chép ba câu đầu tiên đều được những người dán nhãn ưa chuộng hơn so với các bản tóm tắt tham chiếu của con người trong cả hai tập dữ liệu. Các tác giả không đồng ý: chúng tôi thấy các bản tóm tắt tham chiếu là chính xác và nắm bắt thông điệp tổng thể tốt hơn. Điều này cho thấy sự không phù hợp giữa khái niệm về chất lượng mà chúng tôi muốn mô hình của mình học được và những gì những người dán nhãn thực sự đánh giá. Những người dán nhãn muốn làm việc nhanh nhất có thể và họ có thể làm việc rất nhanh bằng cách tuân theo phương pháp tiếp cận "nếu bản tóm tắt sao chép, thì hãy chọn bản tóm tắt đó".
Những thách thức và bài học kinh nghiệm
Thu thập dữ liệu trực tuyến là khó khăn
Việc thu thập dữ liệu trực tuyến là cần thiết để đạt được kết quả tóm tắt tốt nhất, nhưng lại dẫn đến nhiều khó khăn:
+ Độ phức tạp của phần mềm. Việc thu thập dữ liệu xen kẽ, đào tạo mô hình phần thưởng và tinh chỉnh RL dẫn đến một hệ thống phức tạp hơn nhiều so với việc mỗi thành phần tách biệt.
+ Độ phức tạp của học máy. Một lỗi ML trong bất kỳ thành phần nào cũng có thể phá vỡ toàn bộ hệ thống và việc gỡ lỗi một thành phần riêng lẻ sẽ rất khó khăn.
+ Các vấn đề kiểm soát chất lượng . Thu thập nhãn trực tuyến yêu cầu độ trễ thấp giữa việc tạo mẫu và nhận dữ liệu trở lại từ Scale (thường là ~30 phút). Kiểm soát chất lượng với độ trễ thấp là rất khó và sự suy giảm chất lượng dữ liệu thường không được phát hiện cho đến khi quá trình đào tạo hoàn tất.
Chúng tôi tin rằng điểm trung gian phù hợp giữa thu thập dữ liệu ngoại tuyến và trực tuyến là thu thập dữ liệu theo đợt : chúng tôi sẽ luân phiên giữa việc thu thập các đợt dữ liệu lớn (có độ trễ cao hơn) và đào tạo trên dữ liệu đã thu thập. Chi phí dữ liệu của con người có nghĩa là khối lượng sẽ luôn thấp, do đó, dễ dàng đào tạo lại từ đầu (hoặc đúng hơn là từ điểm bắt đầu GPT-2) mỗi lần.
Nhiệm vụ mơ hồ làm cho việc dán nhãn trở nên khó khăn
Một người có thể có khái niệm rõ ràng về việc một mẫu nhất định có chính xác riêng biệt, ngữ pháp, không trùng lặp hay đánh đúng các điểm chính hay không, nhưng việc so sánh hai bản tóm tắt thường đòi hỏi phải cân nhắc chủ quan các loại thiếu sót khác nhau. Khi có thể, có vẻ tốt hơn là thiết kế các nhiệm vụ dán nhãn ít mơ hồ hơn để có được cùng một thông tin. Ví dụ, thay vì yêu cầu một người so sánh các bản tóm tắt, chúng ta có thể yêu cầu mô tả bằng lời về các vấn đề bằng bản tóm tắt hoặc đề xuất sửa lỗi. Ngay cả khi hai người không đồng ý về vấn đề quan trọng nhất, họ có thể đồng ý rằng người kia đã chọn một số vấn đề và sự đồng thuận hơn sẽ giúp kiểm soát chất lượng dữ liệu và toàn bộ quá trình thử nghiệm dễ dàng hơn.
Lỗi có thể tối ưu hóa cho hành vi xấu
Một trong những mã tái cấu trúc của chúng tôi đã đưa ra một lỗi làm đảo ngược dấu hiệu của phần thưởng. Việc đảo ngược phần thưởng thường sẽ tạo ra văn bản không mạch lạc, nhưng lỗi tương tự cũng làm đảo ngược dấu hiệu của hình phạt KL. Kết quả là một mô hình được tối ưu hóa cho cảm xúc tiêu cực trong khi vẫn bảo toàn ngôn ngữ tự nhiên. Vì hướng dẫn của chúng tôi yêu cầu con người đánh giá rất thấp các phần tiếp theo có văn bản khiêu dâm, nên mô hình đã nhanh chóng học được cách chỉ xuất ra nội dung có dạng này. Lỗi này rất đáng chú ý vì kết quả không phải là tiếng vô nghĩa mà là đầu ra tệ nhất. Các tác giả đã ngủ trong quá trình đào tạo, vì vậy vấn đề chỉ được phát hiện sau khi quá trình đào tạo kết thúc. Một cơ chế như dây Andon của Toyota có thể ngăn chặn điều này bằng cách cho phép bất kỳ người dán nhãn nào dừng quá trình đào tạo có vấn đề.
Nhìn về phía trước
Chúng tôi đã chứng minh được việc học phần thưởng từ sở thích của con người trên hai loại nhiệm vụ ngôn ngữ tự nhiên, tiếp tục theo phong cách và tóm tắt. Kết quả của chúng tôi là hỗn hợp: đối với tiếp tục, chúng tôi đạt được kết quả tốt với rất ít mẫu, nhưng các mô hình tóm tắt của chúng tôi chỉ là "máy sao chép thông minh": chúng sao chép từ văn bản đầu vào nhưng bỏ qua phần mở đầu không liên quan. Ưu điểm của việc sao chép thông minh là tính trung thực: các mô hình zero-shot và giám sát tạo ra các bản tóm tắt tự nhiên, có vẻ hợp lý nhưng thường là lời nói dối. Chúng tôi tin rằng yếu tố hạn chế trong các thí nghiệm của mình là chất lượng dữ liệu bị làm trầm trọng thêm bởi bối cảnh thu thập dữ liệu trực tuyến và có kế hoạch sử dụng thu thập dữ liệu theo đợt trong tương lai.
Chúng tôi tin rằng việc áp dụng học phần thưởng vào ngôn ngữ là quan trọng cả về mặt năng lực và an toàn. Về mặt năng lực, học tăng cường cho phép chúng ta sửa lỗi mà học có giám sát không phát hiện được, nhưng RL với các hàm phần thưởng theo chương trình “ có thể gây bất lợi cho chất lượng mô hình.” Về mặt an toàn, việc học phần thưởng cho ngôn ngữ cho phép các tiêu chí quan trọng như “không nói dối” được thể hiện trong quá trình đào tạo và là một bước hướng tới các phương pháp an toàn có thể mở rộng như tranh luận và khuếch đại .
- Tài khoản ChatGPT 4 với vô vàn ưu đãi đặc biệt trong ngày hôm nay!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam