zalo
Chat ngay

Những lời phê bình do AI viết giúp con người nhận ra những sai sót

Chúng tôi đã đào tạo các mô hình "viết phê bình" để mô tả các lỗi trong bản tóm tắt. Người đánh giá con người thường xuyên tìm thấy lỗi trong bản tóm tắt hơn nhiều khi được xem các lời phê bình của mô hình. Các mô hình lớn hơn có khả năng tự phê bình tốt hơn, với quy mô cải thiện khả năng viết phê bình nhiều hơn khả năng viết tóm tắt. Điều này cho thấy triển vọng sử dụng các hệ thống AI để hỗ trợ con người giám sát các hệ thống AI trong các nhiệm vụ khó.

Chúng tôi muốn đảm bảo rằng các hệ thống AI trong tương lai thực hiện các nhiệm vụ rất khó khăn vẫn phù hợp với ý định của con người.  Nhiều hệ thống trước đây tác phẩm về  việc căn chỉnh các mô hình ngôn ngữ  dựa vào đánh giá của con người như một tín hiệu đào tạo. Tuy nhiên, con người gặp khó khăn trong việc đánh giá các nhiệm vụ rất khó khăn—ví dụ, rất khó để phát hiện ra mọi lỗi trong cơ sở dữ liệu mã hoặc mọi lỗi thực tế trong một bài luận dài. Sau đó, các mô hình có thể học cách đưa ra các đầu ra trông có vẻ tốt đối với con người nhưng có những lỗi mà chúng ta không nhận thấy một cách có hệ thống.

Để giảm thiểu vấn đề này, chúng tôi muốn đào tạo trợ lý AI giúp con người cung cấp phản hồi về các nhiệm vụ khó. Những trợ lý này sẽ chỉ ra các lỗi, giúp con người hiểu những gì đang diễn ra và trả lời các câu hỏi của họ. Một ví dụ về điều này là công việc trước đây của chúng tôi về  tóm tắt sách : đọc toàn bộ cuốn sách là một công việc rất lớn, nhưng con người được hỗ trợ tóm tắt chương sẽ dễ dàng hơn nhiều khi đánh giá tóm tắt sách.

Để chứng minh khái niệm, chúng tôi đã sử dụng học có giám sát để đào tạo các mô hình ngôn ngữ viết các bài phê bình tóm tắt theo chủ đề của truyện ngắn, bài viết trên Wikipedia và các văn bản khác từ internet. Chúng tôi sử dụng các mô hình này để hỗ trợ người đánh giá và nghiên cứu các đặc tính mở rộng của bài viết phê bình.

Các thí nghiệm với sự hỗ trợ của AI

 

Chúng tôi so sánh đánh giá của con người về các bản tóm tắt do AI viết giữa một nhóm kiểm soát không nhận được sự hỗ trợ và một nhóm được hỗ trợ để xem 8 bài phê bình do AI viết. Các bản tóm tắt được chọn từ 3 nguồn khác nhau. Con người được hỗ trợ tìm thấy nhiều hơn khoảng 50% lỗi trong các bản tóm tắt so với những người đánh giá không được hỗ trợ, sử dụng trực tiếp các bài phê bình mô hình cho hầu hết các bài phê bình mà họ tìm thấy.

Để xem các mô hình của chúng tôi hữu ích như thế nào đối với việc hỗ trợ đánh giá, chúng tôi cho người dán nhãn xem 8 bài phê bình do mô hình viết về mỗi bản tóm tắt, với một nhóm đối chứng không nhận được sự hỗ trợ nào. Chúng tôi sử dụng các bản tóm tắt theo chủ đề từ ba nguồn: do mô hình của chúng tôi viết, do con người viết và do con người viết một cách có chủ đích để có những sai sót quan trọng nhưng tinh vi.

Mặc dù tóm tắt thực sự không phải là một nhiệm vụ khó khăn đối với con người và các mô hình của chúng tôi không có khả năng hơn con người, nhưng chúng đã cung cấp sự hỗ trợ có ý nghĩa: khi được yêu cầu đánh giá các bản tóm tắt do mô hình viết, nhóm được hỗ trợ tìm thấy nhiều hơn 50% lỗi so với nhóm đối chứng. Đối với các bản tóm tắt cố tình gây hiểu lầm, sự hỗ trợ làm tăng tần suất con người phát hiện ra lỗi cố ý từ 27% lên 45%.

Thuộc tính mở rộng của các lời phê bình

Trợ giúp về tóm tắt do mô hình viết chỉ có tác dụng nếu chúng có thể tự phê bình. Chúng tôi yêu cầu con người đánh giá mức độ hữu ích của các bản tự phê bình do mô hình viết và thấy rằng các mô hình lớn hơn có khả năng tự phê bình tốt hơn.

 

Các mô hình lớn hơn có khả năng tự phê bình tốt hơn trong phạm vi tóm tắt theo chủ đề của chúng tôi: Mặc dù các mô hình lớn hơn có các câu trả lời khó phê bình hơn, nhưng chúng tạo ra nhiều lời phê bình hữu ích hơn cho các đầu ra của chính chúng. Trong sơ đồ này, quy mô mô hình được đo bằng logarit loss (nats) sau khi tinh chỉnh. Tính hữu ích được xác định bởi con người đánh giá xem lời phê bình do mô hình tạo ra đối với câu trả lời do mô hình tạo ra có hợp lệ và hữu ích để hiểu chất lượng tóm tắt hay không. Chúng tôi lọc các bản tóm tắt mà con người tìm thấy lời phê bình.

Chúng tôi cũng thấy rằng các mô hình lớn có thể trực tiếp cải thiện kết quả đầu ra của chúng, bằng cách sử dụng các lời tự phê bình, điều mà các mô hình nhỏ không thể làm được. Sử dụng các lời phê bình tốt hơn giúp các mô hình cải thiện tốt hơn so với khi sử dụng các lời phê bình tệ hơn hoặc không có lời phê bình nào.

Liệu người mẫu có nói cho chúng ta biết mọi thứ họ biết không?

Để cung cấp hỗ trợ đánh giá tốt nhất cho các nhiệm vụ khó, chúng tôi muốn các mô hình truyền đạt tất cả các vấn đề mà chúng "biết". Bất cứ khi nào một mô hình dự đoán chính xác rằng một câu trả lời bị lỗi, liệu mô hình đó có thể đưa ra lời phê bình cụ thể mà con người có thể hiểu được không?

Điều này đặc biệt quan trọng đối với các mô hình giám sát có thể cố gắng đánh lừa người giám sát hoặc che giấu thông tin. Chúng tôi muốn đào tạo các mô hình hỗ trợ thông minh tương tự để chỉ ra những gì con người không nhận thấy.

Thật không may, chúng tôi thấy rằng các mô hình phân biệt tốt hơn là phê bình câu trả lời của chính chúng, cho thấy chúng biết về một số vấn đề mà chúng không thể hoặc không diễn đạt rõ ràng. Hơn nữa, khoảng cách giữa khả năng phân biệt và phê bình dường như không giảm đối với các mô hình lớn hơn. Thu hẹp khoảng cách này là ưu tiên quan trọng đối với nghiên cứu căn chỉnh của chúng tôi.

Các bước tiếp theo

Một hạn chế quan trọng của công trình này là tóm tắt theo chủ đề thực sự không phải là một nhiệm vụ khó: con người hiểu khá rõ và chỉ mất khoảng 10 phút để đánh giá một bản tóm tắt. Để hiểu rõ hơn về giới hạn của đánh giá được hỗ trợ bởi AI, chúng ta cần làm việc với các nhiệm vụ mà con người khó đánh giá hơn nhiều.

Tuy nhiên, những kết quả này khiến chúng ta lạc quan rằng chúng ta có thể đào tạo các mô hình để cung cấp cho con người sự hỗ trợ phản hồi có ý nghĩa. Đây là một trụ cột quan trọng trong chiến lược liên kết của chúng tôi, bắt đầu bằng công việc về  tranh luận và mô hình phần thưởng đệ quy về lâu dài, chúng tôi muốn xây dựng những trợ lý đáng tin cậy để đảm nhiệm mọi công việc nhận thức cần thiết cho việc đánh giá, để con người có thể tập trung vào việc truyền đạt sở thích của mình.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !