zalo
Chat ngay

Xuống dốc kép sâu

 

Chúng tôi chỉ ra rằng  đôi (mở trong cửa sổ mới) sự hạ xuống (mở trong cửa sổ mới) hiện tượng (mở trong cửa sổ mới) xảy ra trong CNN, ResNet và máy biến áp: hiệu suất đầu tiên cải thiện, sau đó trở nên tệ hơn, rồi lại cải thiện khi tăng kích thước mô hình, kích thước dữ liệu hoặc thời gian đào tạo. Hiệu ứng này thường được tránh thông qua việc điều chỉnh cẩn thận. Mặc dù hành vi này có vẻ khá phổ biến, chúng tôi vẫn chưa hiểu đầy đủ lý do tại sao nó xảy ra và coi việc nghiên cứu sâu hơn về hiện tượng này là một hướng nghiên cứu quan trọng.

xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Nhiều lớp mô hình học sâu hiện đại, bao gồm CNN, ResNet và máy biến áp, thể hiện sự  tăng gấp đôi đã được quan sát trước đó (mở trong cửa sổ mới) sự hạ xuống (mở trong cửa sổ mới) hiện tượng (mở trong cửa sổ mới) khi không sử dụng dừng sớm hoặc điều chỉnh. Đỉnh xảy ra theo dự đoán tại “chế độ quan trọng”, khi các mô hình hầu như không thể phù hợp với bộ huấn luyện. Khi chúng ta tăng số lượng tham số trong mạng nơ-ron, lỗi kiểm tra ban đầu giảm, tăng và, giống như mô hình có thể phù hợp với bộ huấn luyện, trải qua lần giảm thứ hai.

Cả trí tuệ thông thường của các nhà thống kê cổ điển cho rằng  các mô hình quá lớn sẽ tệ hơn  cũng như mô hình ML hiện đại cho rằng  các mô hình lớn hơn sẽ  ủng hộ tốt hơn. Chúng tôi thấy rằng sự suy giảm kép cũng xảy ra trong các kỷ nguyên đào tạo. Đáng ngạc nhiên là chúng tôi chỉ ra rằng những hiện tượng này có thể dẫn đến một chế độ mà nhiều dữ liệu gây hại và việc đào tạo một mạng lưới sâu trên một tập đào tạo lớn hơn thực sự hoạt động kém hơn.

Mô hình theo chiều dọc

Có một chế độ mà các mô hình lớn hơn thì tệ hơn.

Hiện tượng giảm dần theo mô hình có thể dẫn đến chế độ mà việc đào tạo trên nhiều dữ liệu hơn sẽ gây tổn hại. Trong biểu đồ trên, đỉnh lỗi kiểm tra xảy ra xung quanh ngưỡng nội suy, khi các mô hình chỉ đủ lớn để phù hợp với bộ đào tạo.

Trong mọi trường hợp chúng tôi đã quan sát, những thay đổi ảnh hưởng đến ngưỡng nội suy (chẳng hạn như thay đổi thuật toán tối ưu hóa, số lượng mẫu đào tạo hoặc lượng nhiễu nhãn) cũng ảnh hưởng đến vị trí đỉnh lỗi kiểm tra tương ứng. Hiện tượng giảm kép nổi bật nhất trong các cài đặt có thêm nhiễu nhãn; nếu không có nó, đỉnh sẽ nhỏ hơn và dễ bị bỏ qua. Việc thêm nhiễu nhãn khuếch đại hành vi chung này và cho phép chúng tôi dễ dàng điều tra.

Không đơn điệu theo mẫu

Có một chế độ mà càng nhiều mẫu thì càng gây hại.

Biểu đồ trên cho thấy các bộ biến đổi được đào tạo trên một tác vụ dịch ngôn ngữ không có thêm nhiễu nhãn. Như mong đợi, việc tăng số lượng mẫu sẽ dịch chuyển đường cong xuống phía dưới về phía lỗi thử nghiệm thấp hơn. Tuy nhiên, vì nhiều mẫu hơn đòi hỏi các mô hình lớn hơn để phù hợp, việc tăng số lượng mẫu cũng dịch chuyển ngưỡng nội suy (và đỉnh trong lỗi thử nghiệm) sang bên phải.

Đối với kích thước mô hình trung gian (mũi tên màu đỏ), hai hiệu ứng này kết hợp lại và chúng ta thấy rằng việc đào tạo trên nhiều mẫu hơn 4,5 lần thực sự làm giảm hiệu suất thử nghiệm.

Sự suy thoái kép theo từng thời đại

Có một chế độ luyện tập lâu hơn sẽ đảo ngược tình trạng quá khớp.

Biểu đồ trên cho thấy lỗi thử nghiệm và lỗi đào tạo là hàm của cả kích thước mô hình và số bước tối ưu hóa. Đối với một số bước tối ưu hóa nhất định (tọa độ y cố định), lỗi thử nghiệm và lỗi đào tạo thể hiện sự suy giảm kép theo kích thước mô hình. Đối với một kích thước mô hình nhất định (tọa độ x cố định), khi quá trình đào tạo diễn ra, lỗi thử nghiệm và lỗi đào tạo giảm, tăng và giảm trở lại; chúng tôi gọi hiện tượng này là suy giảm kép theo từng kỷ nguyên.

Nhìn chung, đỉnh điểm của lỗi thử nghiệm xuất hiện một cách có hệ thống khi các mô hình gần như không thể phù hợp với bộ tàu hỏa.

Theo trực giác của chúng tôi, đối với các mô hình ở ngưỡng nội suy, về cơ bản chỉ có một mô hình phù hợp với dữ liệu tàu và việc buộc nó phải phù hợp với ngay cả các nhãn hơi nhiễu hoặc không xác định đúng cũng sẽ phá hủy cấu trúc toàn cục của nó. Nghĩa là, không có "mô hình tốt" nào vừa nội suy được tập tàu vừa hoạt động tốt trên tập kiểm tra. Tuy nhiên, trong chế độ tham số hóa quá mức, có nhiều mô hình phù hợp với tập tàu và tồn tại những mô hình tốt như vậy. Hơn nữa, độ lệch ngầm của quá trình giảm dần độ dốc ngẫu nhiên (SGD) dẫn đến những mô hình tốt như vậy, vì những lý do mà chúng ta vẫn chưa hiểu.

Chúng tôi để lại câu hỏi mở quan trọng về việc hiểu đầy đủ các cơ chế đằng sau quá trình suy giảm kép trong mạng nơ-ron sâu.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !