.png)
Chúng tôi tin rằng cách tiếp cận này hoặc cách tiếp cận tương tự cuối cùng có thể giúp chúng tôi đào tạo các hệ thống AI thực hiện các nhiệm vụ nhận thức tiên tiến hơn nhiều so với khả năng của con người, trong khi vẫn phù hợp với sở thích của con người. Chúng tôi sẽ phác thảo phương pháp này cùng với các thử nghiệm chứng minh khái niệm sơ bộ và cũng sẽ phát hành giao diện web để mọi người có thể thử nghiệm kỹ thuật này.
Một cách tiếp cận để sắp xếp các tác nhân AI với các mục tiêu và sở thích của con người là hỏi con người vào thời điểm đào tạo những hành vi nào là an toàn và hữu ích. Mặc dù có triển vọng, phương pháp này đòi hỏi con người phải nhận ra hành vi tốt hay xấu; trong nhiều tình huống, hành vi của tác nhân có thể quá phức tạp để con người có thể hiểu được hoặc bản thân nhiệm vụ có thể khó đánh giá hoặc chứng minh. Ví dụ bao gồm các môi trường có không gian quan sát không trực quan rất lớn—ví dụ, một tác nhân hoạt động trong môi trường liên quan đến bảo mật máy tính hoặc một tác nhân điều phối một nhóm lớn các rô-bốt công nghiệp.
Làm thế nào chúng ta có thể tăng cường con người để họ có thể giám sát hiệu quả các hệ thống AI tiên tiến? Một cách là tận dụng chính AI để hỗ trợ giám sát, yêu cầu AI (hoặc một AI riêng biệt) chỉ ra những sai sót trong bất kỳ hành động nào được đề xuất. Để đạt được điều này, chúng ta định hình lại vấn đề học tập như một trò chơi giữa hai tác nhân, trong đó các tác nhân tranh luận với nhau và con người đánh giá cuộc trao đổi. Ngay cả khi các tác nhân hiểu vấn đề sâu hơn con người, con người vẫn có thể đánh giá được tác nhân nào có lập luận tốt hơn (tương tự như các nhân chứng chuyên gia tranh luận để thuyết phục bồi thẩm đoàn).
- Tài khoản ChatGPT 4 với vô vàn ưu đãi hấp dẫn!
Phương pháp của chúng tôi đề xuất một định dạng tranh luận cụ thể cho một trò chơi như vậy được chơi giữa hai tác nhân AI đấu tay đôi. Hai tác nhân có thể được đào tạo bằng cách tự chơi, tương tự như AlphaGo Zero hoặc Dota 2. Chúng tôi hy vọng rằng, được đào tạo đúng cách, các tác nhân như vậy có thể tạo ra hành vi phù hợp với giá trị vượt xa khả năng của thẩm phán con người. Nếu hai tác nhân không đồng ý về sự thật nhưng lý luận đầy đủ quá lớn để con người có thể chứng minh, cuộc tranh luận có thể tập trung vào các tranh chấp thực tế ngày càng đơn giản hơn, cuối cùng đạt đến một yêu sách đủ đơn giản để phán đoán trực tiếp.
Ví dụ, hãy xem xét câu hỏi "Đi nghỉ ở đâu là tốt nhất?". Nếu một nhân viên Alice được cho là nghiên cứu thay mặt chúng ta và nói "Alaska", thì thật khó để đánh giá liệu đây có thực sự là lựa chọn tốt nhất hay không. Nếu một nhân viên thứ hai Bob nói "không, là Bali", thì điều đó có vẻ thuyết phục vì Bali ấm hơn. Alice trả lời "bạn không thể đến Bali vì hộ chiếu của bạn sẽ không đến kịp", điều này cho thấy một lỗ hổng của Bali mà chúng ta chưa từng nghĩ đến. Nhưng Bob phản bác "dịch vụ hộ chiếu nhanh chỉ mất hai tuần". Cuộc tranh luận tiếp tục cho đến khi chúng ta đi đến một tuyên bố mà con người có thể đánh giá đúng, theo nghĩa là nhân viên kia không tin rằng nó có thể thay đổi suy nghĩ của con người.
Thuyết phục một bộ phân loại MNIST thưa thớt
Mặc dù chúng tôi kỳ vọng cách tiếp cận này sẽ hiệu quả nhất về lâu dài khi các tác nhân nói chuyện với nhau bằng ngôn ngữ tự nhiên, chúng tôi cần thử nghiệm nó trong một phạm vi đơn giản hơn vì mô hình ngôn ngữ tự nhiên hiện nay không đủ cho nhiệm vụ này. Bài kiểm tra dễ hơn với một nhiệm vụ không vượt quá khả năng của con người. Chúng ta có thể thực hiện điều này bằng cách chuyển sang phạm vi trực quan và thay thế "người tranh luận có khả năng mà giám khảo không có" bằng "người tranh luận có kiến thức mà giám khảo không có". Mục tiêu của giám khảo là đoán nội dung của một hình ảnh, nhưng giám khảo không nhìn thấy gì ngoài một vài pixel do người tranh luận chọn. Những người tranh luận nhìn thấy toàn bộ hình ảnh và chơi một trò chơi trong đó họ thay phiên nhau tiết lộ từng pixel cho giám khảo trong một vài lượt. Ở đây, toàn bộ hình ảnh là một sự thay thế cho thông tin vượt ra ngoài quy mô của con người và mỗi pixel được tiết lộ là một sự thay thế cho một điểm thảo luận bằng ngôn ngữ tự nhiên.
Chúng tôi đã thử điều này trên nhiệm vụ thị giác đơn giản nhất có thể—MNIST. Người đánh giá không phải là con người mà là một bộ phân loại được đào tạo trước để dự đoán các chữ số MNIST từ 6 pixel không phải màu đen, được lấy mẫu ngẫu nhiên cho mỗi lần trình bày hình ảnh khi đào tạo trước cho người đánh giá. Sau đó, hai tác nhân có một cuộc tranh luận, trong đó họ thay phiên nhau tiết lộ các pixel, dừng lại ở tổng cộng 6 pixel được tiết lộ (do đó, người đánh giá chỉ nhìn thấy một chút thông tin). Một người tranh luận trung thực và cố gắng khiến người đánh giá đoán đúng, người tranh luận kia cố gắng khiến người đánh giá đoán sai. Nếu cả hai tác nhân phải tuyên bố trước chữ số nào họ đang tranh luận, cuộc tranh luận sẽ biến một bộ phân loại thưa thớt có độ chính xác 59,4% thành một cuộc tranh luận có độ chính xác 88,9% . Nghĩa là, người chơi trung thực thắng 88,9% thời gian trên bộ kiểm tra MNIST, trong quá trình này, giúp người đánh giá vượt lên trên độ chính xác không cần trợ giúp của mình.
.png)
Cấu trúc của trò chơi tranh luận MNIST. Người tranh luận Alice và Bob nhìn thấy một hình ảnh, Alice cố gắng đánh lừa giám khảo nghĩ rằng đó là số 6, Bob cố gắng thuyết phục giám khảo rằng đó là số 5. Họ thay phiên nhau tiết lộ các điểm ảnh không phải màu đen cho giám khảo, người xác định chính xác đó là số 5 sau khi nhìn thấy sáu điểm ảnh. Alice vạch ra đường cong ở phía dưới để làm cho nó trông giống như số 6 (điểm ảnh màu đỏ) , nhưng Bob phản công hiệu quả chiến lược này bằng cách tiết lộ các điểm ảnh ở góc trên bên phải (điểm ảnh màu xanh lam) , mà hầu hết các MNIST 6 không có.
Theo trực giác, một hình ảnh có nhiều khả năng chứa các pixel chứng minh sự thật một cách thuyết phục hơn là chứa các pixel chứng minh lời nói dối một cách thuyết phục, vì vậy 6 pixel được chọn một nửa trung thực và một nửa ác ý sẽ tốt hơn nhiều so với 6 pixel ngẫu nhiên. Nếu thẩm phán là một con người có khả năng lý luận về một vài lập luận cùng một lúc nhưng không sàng lọc qua tập hợp khổng lồ của tất cả các lập luận có thể, thì trò chơi tối ưu trong cuộc tranh luận có thể (chúng ta hy vọng) thưởng cho các tác nhân tranh luận vì đã sàng lọc thay chúng ta ngay cả khi chúng ta không có cơ chế tiên nghiệm để phân biệt lập luận tốt với lập luận xấu.
Bảng bên dưới hiển thị một số trò chơi ví dụ. Chiến thắng của kẻ nói dối thú vị hơn chiến thắng của kẻ trung thực, vì vậy chúng tôi đã chọn các mẫu sao cho kẻ nói dối thắng trong 50% các trò chơi được hiển thị bên dưới (trên thực tế, kẻ nói dối thắng 11,1% các trò chơi).
Trang web tranh luận giữa mèo và chó
Bước tiếp theo trong việc tăng độ phức tạp cho các thí nghiệm tranh luận là vẫn sử dụng hình ảnh, nhưng làm cho chúng phức tạp hơn, chẳng hạn như mèo so với chó. Hình ảnh phức tạp hơn có thể đòi hỏi một số ngôn ngữ tự nhiên hoặc lý luận thông thường, vì vậy chúng tôi vẫn chưa thực hiện điều này cho các giám khảo/đại lý học máy. Thay vào đó, chúng tôi đã tạo một trang web nguyên mẫu để con người thử nghiệm những thí nghiệm như vậy, đóng vai trò vừa là thẩm phán vừa là người tranh luận. Ở đây, các tác nhân có thể nói chuyện với thẩm phán bằng ngôn ngữ tự nhiên (trang web giả định rằng con người có một kênh văn bản nào đó hoặc ở cùng phòng), nhưng tất cả các tuyên bố của họ đều có thể là dối trá. Mỗi tác nhân có thể tiết lộ một pixel trong suốt quá trình tranh luận và pixel này được đảm bảo là trung thực.
Trong một cuộc tranh luận thông thường, Alice có thể thành thật tuyên bố hình ảnh là một con mèo, và Bob nói dối và tuyên bố đó là một con chó. Alice có thể nói "Tâm của hình chữ nhật nhỏ này là mắt xanh của con mèo". Bob không thể thừa nhận tâm là mắt, vì vậy anh ta bịa ra lời nói dối tiếp theo, "Đó là một con chó đang chơi trên cỏ, và đó là một ngọn cỏ". Nhưng lời nói dối này khó có thể phù hợp với các sự kiện xung quanh, chẳng hạn như câu trả lời của Alice "Nếu nó là cỏ thì sẽ có màu xanh ở trên cùng hoặc dưới cùng của hình chữ nhật mỏng này". Cuộc tranh luận tiếp tục cho đến khi các tác nhân tập trung vào một pixel cụ thể mà họ không đồng ý, nhưng Bob không thể nghĩ ra một phản biện hợp lý, tại thời điểm đó Alice tiết lộ pixel và giành chiến thắng. Chúng tôi đã chơi trò chơi này một cách không chính thức tại OpenAI và tác nhân trung thực thực sự có xu hướng giành chiến thắng, mặc dù để công bằng với kẻ nói dối, chúng tôi thường giới hạn tốc độ mà thẩm phán có thể thu thập thông tin (về mặt nhận thức, rất khó để xây dựng một lời nói dối chi tiết).
Những hạn chế và công việc trong tương lai
Phần lớn bài báo của chúng tôi phân tích tranh luận như một khái niệm; các thí nghiệm trên khá sơ bộ. Trong tương lai, chúng tôi muốn thực hiện các thí nghiệm trực quan khó hơn và cuối cùng là các thí nghiệm trong ngôn ngữ tự nhiên. Cuối cùng, các giám khảo phải là con người (hoặc các mô hình được đào tạo từ các phán đoán thưa thớt của con người) thay vì các mô hình ML đại diện cho con người một cách ẩn dụ. Các tác nhân cuối cùng phải là các hệ thống ML mạnh mẽ thực hiện những điều mà con người không thể hiểu trực tiếp. Điều quan trọng nữa là phải kiểm tra các cuộc tranh luận về các câu hỏi có giá trị trong đó thành kiến của con người đóng vai trò, kiểm tra xem có thể có được hành vi phù hợp từ các giám khảo thiên vị hay không.
Ngay cả với những cải tiến này, vẫn có một số hạn chế cơ bản đối với mô hình tranh luận có thể yêu cầu nó được cải thiện hoặc bổ sung bằng các phương pháp khác. Tranh luận không cố gắng giải quyết các vấn đề như ví dụ đối đầu hoặc thay đổi phân phối — đó là một cách để có được tín hiệu đào tạo cho các mục tiêu phức tạp, không phải là cách để đảm bảo tính mạnh mẽ của các mục tiêu như vậy (cần đạt được thông qua các kỹ thuật bổ sung). Cũng không có gì đảm bảo rằng tranh luận sẽ đi đến lối chơi tối ưu hoặc các tuyên bố chính xác — trò chơi tự chơi đã hoạt động tốt trong thực tế đối với Go và các trò chơi khác nhưng chúng tôi không có đảm bảo lý thuyết nào về hiệu suất của nó. Các tác nhân được đào tạo để tranh luận sử dụng nhiều tính toán hơn những tác nhân được đào tạo để trực tiếp đưa ra câu trả lời (thậm chí là câu trả lời tệ/không an toàn), vì vậy có khả năng tranh luận không thể cạnh tranh với các phương pháp rẻ hơn/kém an toàn hơn. Cuối cùng, con người có thể chỉ đơn giản là những thẩm phán kém, hoặc vì họ không đủ thông minh để đưa ra phán đoán tốt ngay cả sau khi các tác nhân phóng to các sự kiện tranh chấp đơn giản nhất có thể, hoặc vì họ thiên vị và sẽ tin bất cứ điều gì họ muốn tin. Hầu hết các điểm này là những câu hỏi thực nghiệm mà chúng tôi hy vọng sẽ điều tra.
Nếu tranh luận hoặc một cách tiếp cận tương tự có hiệu quả, nó sẽ làm cho các hệ thống AI trong tương lai an toàn hơn bằng cách giữ cho chúng phù hợp với các mục tiêu và giá trị của con người ngay cả khi AI phát triển quá mạnh để con người có thể giám sát trực tiếp. Ngay cả đối với các hệ thống yếu hơn mà con người có thể giám sát, tranh luận có thể làm cho nhiệm vụ căn chỉnh dễ dàng hơn bằng cách giảm độ phức tạp của mẫu cần thiết để đạt được các mục tiêu dưới độ phức tạp của mẫu cần thiết để thực hiện tốt một nhiệm vụ.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam