zalo
Chat ngay

Giải các bài toán bằng lời

Chúng tôi đã đào tạo một hệ thống giải quyết các bài toán tiểu học với độ chính xác gần gấp đôi so với mô hình GPT-3 được tinh chỉnh. Nó giải quyết được khoảng 90% số bài toán so với trẻ em thực sự: một mẫu nhỏ trẻ em từ 9-12 tuổi đạt 60% trong bài kiểm tra từ tập dữ liệu của chúng tôi, trong khi hệ thống của chúng tôi đạt 55% trong cùng các bài toán đó.

Tại sao nó quan trọng

Điều này quan trọng vì AI ngày nay vẫn còn khá yếu trong việc suy luận nhiều bước theo lẽ thường, điều này dễ dàng ngay cả với trẻ em tiểu học. Chúng tôi đã đạt được những kết quả này bằng cách đào tạo mô hình của mình để nhận ra lỗi của nó, để nó có thể thử lại nhiều lần cho đến khi tìm ra giải pháp hiệu quả.

Giới thiệu

Các mô hình ngôn ngữ lớn như GPT-3 có nhiều kỹ năng ấn tượng, bao gồm khả năng bắt chước nhiều phong cách viết và kiến ​​thức thực tế sâu rộng của chúng. Tuy nhiên, chúng gặp khó khăn khi thực hiện các nhiệm vụ đòi hỏi lý luận nhiều bước chính xác, như giải các bài toán bằng lời ở trường tiểu học. Mặc dù mô hình có thể bắt chước nhịp điệu của các giải pháp đúng, nhưng nó thường xuyên tạo ra các lỗi logic nghiêm trọng.

Để phù hợp với hiệu suất của con người trong các miền logic phức tạp, các mô hình của chúng tôi phải học cách nhận ra lỗi của mình và lựa chọn các bước một cách cẩn thận. Để đạt được mục đích đó, chúng tôi đào tạo các trình xác minh để đánh giá xem giải pháp được đề xuất có đúng hay không. Để giải quyết một vấn đề mới, chúng tôi sử dụng các trình xác minh để chọn giải pháp tốt nhất trong số nhiều giải pháp được đề xuất. Chúng tôi đã thu thập bộ dữ liệu GSM8K mới để đánh giá các phương pháp của mình và chúng tôi đang phát hành bộ dữ liệu này để tạo điều kiện thuận lợi cho nghiên cứu.

Trong mười ví dụ dưới đây, chúng tôi trình bày các giải pháp được tạo ra bằng phương pháp mới, xác minh và phương pháp cơ bản, tinh chỉnh.

Bộ dữ liệu GSM8K

GSM8K bao gồm 8,5 nghìn bài toán từ vựng chất lượng cao dành cho học sinh tiểu học. Mỗi bài toán cần từ 2 đến 8 bước để giải và các giải pháp chủ yếu liên quan đến việc thực hiện một chuỗi các phép tính cơ bản bằng cách sử dụng các phép toán số học cơ bản (+ − × ÷) để đạt được câu trả lời cuối cùng. Các mô hình ngôn ngữ hiện đại được tinh chỉnh hoạt động kém trên tập dữ liệu này, chủ yếu là do tính đa dạng cao của các bài toán. Đồng thời, các giải pháp GSM8K chỉ phụ thuộc vào các khái niệm cơ bản, do đó đạt được hiệu suất kiểm tra cao là một mục tiêu dễ thực hiện.

Các giải pháp trong GSM8K được viết dưới dạng ngôn ngữ tự nhiên thay vì biểu thức toán học thuần túy. Bằng cách tuân thủ ngôn ngữ tự nhiên, các giải pháp do mô hình tạo ra dễ hiểu hơn đối với con người và các phương pháp của chúng tôi vẫn tương đối không phụ thuộc vào miền.

Người xác minh đào tạo: Các mô hình học hỏi từ những sai lầm của họ

Một thách thức đáng kể trong lý luận toán học là độ nhạy cao với các lỗi cá nhân. Các mô hình hồi quy tự động, tạo ra từng mã thông báo giải pháp theo từng mã thông báo, không có cơ chế để sửa lỗi của chính chúng. Các giải pháp đi chệch hướng nhanh chóng trở nên không thể phục hồi, như có thể thấy trong các ví dụ được cung cấp.

Chúng tôi giải quyết vấn đề này bằng cách đào tạo người xác minh để đánh giá tính đúng đắn của các giải pháp do mô hình tạo ra. Người xác minh được cung cấp nhiều giải pháp khả thi, tất cả đều do chính mô hình viết ra và họ được đào tạo để quyết định giải pháp nào, nếu có, là đúng.

Để giải quyết một vấn đề mới tại thời điểm kiểm tra, chúng tôi tạo ra 100 giải pháp ứng viên và sau đó chọn giải pháp được người xác minh xếp hạng cao nhất. Người xác minh được hưởng lợi từ tính tùy chọn vốn có này, cũng như từ thực tế là việc xác minh thường là một nhiệm vụ đơn giản hơn so với việc tạo ra.

Chúng tôi thấy rằng chúng tôi nhận được sự gia tăng mạnh mẽ về hiệu suất từ ​​việc xác minh, miễn là tập dữ liệu đủ lớn. Với các tập dữ liệu quá nhỏ, chúng tôi tin rằng các trình xác minh sẽ phù hợp quá mức bằng cách ghi nhớ các câu trả lời cuối cùng trong tập huấn luyện, thay vì học bất kỳ thuộc tính hữu ích nào khác của lý luận toán học.

Trên toàn bộ tập huấn luyện, xác minh tham số 6B có ​​hiệu suất cao hơn một chút so với mô hình tham số 175B được tinh chỉnh, mang lại hiệu suất tăng cường tương đương với việc tăng kích thước mô hình 30 lần. Hơn nữa, xác minh có vẻ mở rộng hiệu quả hơn với dữ liệu bổ sung, nếu chúng ta suy rộng dựa trên kết quả hiện tại.

Phần kết luận

Việc đưa ra các lập luận đúng và nhận ra các lập luận sai là những thách thức chính trong việc phát triển AI tổng quát hơn. Toán tiểu học là một nền tảng thử nghiệm lý tưởng cho các khả năng này. Các bài toán trong GSM8K về mặt khái niệm rất đơn giản, nhưng chỉ cần một lỗi nhỏ cũng đủ để phá hỏng toàn bộ giải pháp. Xác định và tránh những lỗi như vậy là một kỹ năng quan trọng để phát triển các mô hình của chúng tôi. Bằng cách đào tạo các trình xác minh, chúng tôi dạy các mô hình của mình cách phân biệt các giải pháp tốt với các giải pháp không hiệu quả. Chúng tôi hy vọng những kỹ năng này sẽ ngày càng trở nên phù hợp hơn khi chúng tôi cố gắng áp dụng các mô hình của mình vào các miền phức tạp hơn về mặt logic.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !