Luật mở rộng cho các mô hình ngôn ngữ thần kinh

Tóm tắt

Chúng tôi nghiên cứu các quy luật tỷ lệ theo kinh nghiệm đối với hiệu suất mô hình ngôn ngữ trên tổn thất entropy chéo. Tổn thất tỷ lệ theo quy luật lũy thừa với kích thước mô hình, kích thước tập dữ liệu và lượng tính toán được sử dụng để đào tạo, với một số xu hướng trải dài hơn bảy cấp độ. Các chi tiết kiến ​​trúc khác như chiều rộng hoặc chiều sâu của mạng có tác động tối thiểu trong phạm vi rộng. Các phương trình đơn giản chi phối sự phụ thuộc của quá trình lắp quá mức vào kích thước mô hình/tập dữ liệu và sự phụ thuộc của tốc độ đào tạo vào kích thước mô hình. Các mối quan hệ này cho phép chúng tôi xác định phân bổ tối ưu của ngân sách tính toán cố định. Các mô hình lớn hơn có hiệu quả mẫu cao hơn đáng kể, do đó, đào tạo hiệu quả tính toán tối ưu bao gồm đào tạo các mô hình rất lớn trên một lượng dữ liệu tương đối khiêm tốn và dừng lại đáng kể trước khi hội tụ.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn! 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !