Chúng tôi đã đào tạo một mô hình để đạt được trạng thái nghệ thuật mới trong giải quyết vấn đề toán học bằng cách thưởng cho mỗi bước lập luận đúng (“giám sát quy trình”) thay vì chỉ thưởng cho câu trả lời cuối cùng đúng (“giám sát kết quả”). Ngoài việc tăng cường hiệu suất so với giám sát kết quả, giám sát quy trình còn có một lợi ích liên kết quan trọng: nó trực tiếp đào tạo mô hình để tạo ra một chuỗi suy nghĩ được con người xác nhận.
Giới thiệu
Trong những năm gần đây, các mô hình ngôn ngữ lớn đã cải thiện đáng kể khả năng thực hiện lý luận phức tạp nhiều bước. Tuy nhiên, ngay cả các mô hình tiên tiến nhất vẫn tạo ra lỗi logic, thường được gọi là ảo giác . Giảm thiểu ảo giác là một bước quan trọng hướng tới việc xây dựng AGI được căn chỉnh.
Chúng ta có thể đào tạo các mô hình phần thưởng để phát hiện ảo giác bằng cách sử dụng giám sát kết quả , cung cấp phản hồi dựa trên kết quả cuối cùng hoặc giám sát quy trình , cung cấp phản hồi cho từng bước riêng lẻ trong chuỗi suy nghĩ. Dựa trên công trình trước đó, chúng tôi tiến hành so sánh chi tiết hai phương pháp này bằng cách sử dụng tập dữ liệu MATH làm nền tảng thử nghiệm của chúng tôi. Chúng tôi thấy rằng giám sát quy trình dẫn đến hiệu suất tốt hơn đáng kể, ngay cả khi được đánh giá theo kết quả. Để khuyến khích nghiên cứu liên quan, chúng tôi phát hành toàn bộ tập dữ liệu giám sát quy trình của mình.
- Tài khoản ChatGTP 4 chỉ với vài bước đơn giản!
Tác động căn chỉnh
Giám sát quy trình có một số lợi thế về sự liên kết so với giám sát kết quả. Nó trực tiếp thưởng cho mô hình vì tuân theo một chuỗi suy nghĩ liên kết, vì mỗi bước trong quy trình đều nhận được sự giám sát chính xác. Giám sát quy trình cũng có nhiều khả năng tạo ra lý luận có thể diễn giải được, vì nó khuyến khích mô hình tuân theo một quy trình được con người chấp thuận. Ngược lại, giám sát kết quả có thể thưởng cho một quy trình không liên kết và nhìn chung khó kiểm tra hơn.
Trong một số trường hợp, các phương pháp an toàn hơn cho hệ thống AI có thể dẫn đến hiệu suất giảm, một chi phí được gọi là thuế căn chỉnh . Nhìn chung, bất kỳ loại thuế căn chỉnh nào cũng có thể cản trở việc áp dụng các phương pháp căn chỉnh, do áp lực triển khai mô hình có khả năng nhất. Kết quả dưới đây của chúng tôi cho thấy rằng giám sát quy trình thực tế phải chịu thuế căn chỉnh tiêu cực, ít nhất là trong lĩnh vực toán học. Điều này có thể làm tăng việc áp dụng giám sát quy trình, mà chúng tôi tin rằng sẽ có tác dụng phụ căn chỉnh tích cực.
Giải quyết các bài toán TOÁN
Chúng tôi đánh giá các mô hình phần thưởng được giám sát theo quy trình và được giám sát theo kết quả của mình bằng cách sử dụng các bài toán từ bộ kiểm tra MATH. Chúng tôi tạo ra nhiều giải pháp cho mỗi bài toán và sau đó chọn giải pháp được xếp hạng cao nhất theo từng mô hình phần thưởng. Biểu đồ hiển thị tỷ lệ phần trăm các giải pháp được chọn đạt được câu trả lời cuối cùng đúng, theo hàm số của số lượng các giải pháp được xem xét. Mô hình phần thưởng được giám sát theo quy trình không chỉ hoạt động tốt hơn trên toàn bộ bảng mà khoảng cách hiệu suất còn mở rộng khi chúng tôi xem xét nhiều giải pháp hơn cho mỗi bài toán. Điều này cho chúng ta thấy rằng mô hình phần thưởng được giám sát theo quy trình đáng tin cậy hơn nhiều.
Chúng tôi giới thiệu 10 vấn đề và giải pháp bên dưới, cùng với bình luận về điểm mạnh và điểm yếu của mô hình phần thưởng.
Người ta không biết những kết quả này sẽ khái quát rộng rãi đến mức nào ngoài phạm vi toán học, và chúng tôi coi việc khám phá tác động của giám sát quy trình trong các phạm vi khác là điều quan trọng đối với công việc trong tương lai. Nếu những kết quả này khái quát, chúng ta có thể thấy rằng giám sát quy trình mang lại cho chúng ta những điều tốt nhất của cả hai thế giới – một phương pháp vừa hiệu quả hơn vừa phù hợp hơn so với giám sát kết quả.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt hấp dẫn!