0326 239 199
Chat ngay

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Để chia sẻ sự kỳ diệu của  DALL·E 2  với nhiều đối tượng, chúng tôi cần giảm thiểu rủi ro liên quan đến các mô hình tạo hình ảnh mạnh mẽ. Để đạt được mục đích này, chúng tôi đã đặt ra nhiều  rào cản (mở trong cửa sổ mới) để ngăn chặn hình ảnh được tạo ra vi phạm  chính sách nội dung của chúng tôi (mở trong cửa sổ mới).

Bài đăng này tập trung vào  các biện pháp giảm thiểu trước khi đào tạo,  một tập hợp con của các biện pháp bảo vệ này trực tiếp sửa đổi dữ liệu mà DALL·E 2 học được. Cụ thể, DALL·E 2 được đào tạo trên hàng trăm triệu hình ảnh có chú thích từ internet và chúng tôi xóa và cân nhắc lại một số hình ảnh này để thay đổi những gì mô hình học được.

Bài đăng này được chia thành ba phần, mỗi phần mô tả một biện pháp giảm thiểu trước khi đào tạo khác nhau:

+ Trong phần đầu tiên, chúng tôi mô tả cách chúng tôi lọc ra các hình ảnh bạo lực và khiêu dâm khỏi tập dữ liệu đào tạo của DALL·E 2. Nếu không có sự giảm thiểu này, mô hình sẽ học cách tạo ra các hình ảnh đồ họa hoặc rõ ràng khi được nhắc nhở và thậm chí có thể trả về các hình ảnh như vậy một cách vô tình để đáp lại các lời nhắc có vẻ vô hại.

+ Trong phần thứ hai, chúng tôi thấy rằng việc lọc dữ liệu đào tạo có thể khuếch đại các sai lệch và mô tả kỹ thuật của chúng tôi để giảm thiểu tác động này. Ví dụ, nếu không có biện pháp giảm thiểu này, chúng tôi nhận thấy rằng các mô hình được đào tạo trên dữ liệu đã lọc đôi khi tạo ra nhiều hình ảnh mô tả nam giới hơn và ít hình ảnh mô tả phụ nữ hơn so với các mô hình được đào tạo trên tập dữ liệu gốc.

+ Trong phần cuối, chúng tôi chuyển sang vấn đề ghi nhớ, phát hiện ra rằng các mô hình như DALL·E 2 đôi khi có thể tái tạo hình ảnh mà chúng được đào tạo thay vì tạo ra hình ảnh mới. Trong thực tế, chúng tôi thấy rằng  sự trào ngược hình ảnh này  là do hình ảnh được sao chép nhiều lần trong tập dữ liệu và giảm thiểu vấn đề bằng cách loại bỏ hình ảnh trông giống với hình ảnh khác trong tập dữ liệu.

Giảm dữ liệu đào tạo đồ họa và rõ ràng

Vì dữ liệu đào tạo định hình khả năng của bất kỳ mô hình đã học nào, nên lọc dữ liệu là một công cụ mạnh mẽ để hạn chế các khả năng không mong muốn của mô hình. Chúng tôi đã áp dụng cách tiếp cận này cho hai danh mục—hình ảnh mô tả bạo lực đồ họa và nội dung khiêu dâm—bằng cách sử dụng bộ phân loại để lọc hình ảnh trong các danh mục này ra khỏi tập dữ liệu trước khi đào tạo DALL·E 2. Chúng tôi đã đào tạo các bộ phân loại hình ảnh này tại chỗ và đang tiếp tục nghiên cứu tác động của bộ lọc tập dữ liệu lên mô hình đã đào tạo của chúng tôi.

Để đào tạo bộ phân loại hình ảnh của chúng tôi, chúng tôi đã sử dụng lại một phương pháp mà chúng tôi đã sử dụng trước đây để lọc dữ liệu đào tạo cho  GLIDE (mở trong cửa sổ mới). Các bước cơ bản của phương pháp này như sau: đầu tiên, chúng tôi tạo một thông số kỹ thuật cho các danh mục hình ảnh mà chúng tôi muốn dán nhãn; thứ hai, chúng tôi thu thập một vài trăm ví dụ tích cực và tiêu cực cho mỗi danh mục; thứ ba, chúng tôi sử dụng quy trình học tập chủ động để thu thập thêm dữ liệu và cải thiện sự đánh đổi giữa độ chính xác/thu hồi; và cuối cùng, chúng tôi chạy trình phân loại kết quả trên toàn bộ tập dữ liệu với ngưỡng phân loại bảo thủ để ưu tiên thu hồi hơn độ chính xác. Để thiết lập các ngưỡng này, chúng tôi ưu tiên lọc ra tất cả  dữ liệu xấu  hơn là giữ lại tất cả  dữ liệu tốt  . Điều này là do chúng tôi luôn có thể tinh chỉnh mô hình của mình với nhiều dữ liệu hơn sau này để dạy cho nó những điều mới, nhưng rất khó để khiến mô hình quên đi điều gì đó mà nó đã học được.

 

Sơ đồ dòng chảy của Vòng đời học tập chủ động cho hệ thống trí tuệ nhân tạo

Chúng tôi bắt đầu với một tập dữ liệu nhỏ gồm các hình ảnh được gắn nhãn (phía trên của hình). Sau đó, chúng tôi đào tạo một bộ phân loại trên dữ liệu này. Sau đó, quá trình học tập chủ động sử dụng bộ phân loại hiện tại để chọn một số hình ảnh chưa được gắn nhãn có khả năng cải thiện hiệu suất của bộ phân loại. Cuối cùng, con người tạo nhãn cho những hình ảnh này, thêm chúng vào tập dữ liệu được gắn nhãn. Quá trình này có thể được lặp lại để cải thiện hiệu suất của bộ phân loại theo từng bước.

Trong giai đoạn học tập chủ động, chúng tôi đã cải thiện bộ phân loại của mình theo từng bước bằng cách thu thập nhãn của con người cho những hình ảnh có khả năng khó hoặc bị phân loại sai. Đáng chú ý, chúng tôi đã sử dụng hai kỹ thuật học tập chủ động để chọn hình ảnh từ tập dữ liệu của mình (chứa hàng trăm triệu hình ảnh chưa được gắn nhãn) để trình bày cho con người dán nhãn. Đầu tiên, để giảm tỷ lệ dương tính giả của bộ phân loại (tức là tần suất phân loại nhầm một hình ảnh lành tính thành bạo lực hoặc khiêu dâm), chúng tôi đã gắn nhãn của con người cho những hình ảnh mà mô hình hiện tại phân loại là dương tính. Để bước này hoạt động tốt, chúng tôi đã điều chỉnh ngưỡng phân loại của mình để có khả năng nhớ lại gần 100% nhưng có tỷ lệ dương tính giả cao; theo cách này, người dán nhãn của chúng tôi chủ yếu dán nhãn các trường hợp thực sự tiêu cực. Mặc dù kỹ thuật này giúp giảm số lượng dương tính giả và giảm nhu cầu người dán nhãn phải xem xét các hình ảnh có khả năng gây hại, nhưng nó không giúp tìm ra nhiều trường hợp dương tính hơn mà mô hình hiện đang thiếu.

Để giảm tỷ lệ âm tính giả của bộ phân loại, chúng tôi đã sử dụng kỹ thuật học chủ động thứ hai: tìm kiếm lân cận gần nhất. Cụ thể, chúng tôi đã chạy xác thực chéo nhiều lần để tìm các mẫu dương tính trong tập dữ liệu được gắn nhãn hiện tại của mình mà mô hình có xu hướng phân loại sai thành âm tính (để thực hiện việc này, chúng tôi đã đào tạo hàng trăm phiên bản của bộ phân loại với các phân tách xác thực đào tạo khác nhau). Sau đó, chúng tôi đã quét bộ sưu tập lớn các hình ảnh chưa được gắn nhãn của mình để tìm các lân cận gần nhất của các mẫu này trong không gian đặc điểm nhận thức và gán nhãn của con người cho các hình ảnh được phát hiện. Nhờ cơ sở hạ tầng tính toán của chúng tôi, việc mở rộng cả đào tạo bộ phân loại và tìm kiếm lân cận gần nhất lên nhiều GPU trở nên dễ dàng, cho phép bước học chủ động diễn ra trong một số phút thay vì hàng giờ hoặc hàng ngày.

Để xác minh hiệu quả của bộ lọc dữ liệu, chúng tôi đã đào tạo hai mô hình GLIDE với cùng siêu tham số: một trên dữ liệu chưa lọc và một trên tập dữ liệu sau khi lọc. Chúng tôi gọi mô hình trước là mô  hình chưa lọc và mô hình sau là  mô hình đã lọc . Như mong đợi, chúng tôi thấy rằng mô hình đã lọc thường tạo ra ít nội dung rõ ràng hoặc đồ họa hơn để đáp ứng các yêu cầu về loại nội dung này. Tuy nhiên, chúng tôi cũng tìm thấy một tác dụng phụ không mong muốn của việc lọc dữ liệu: nó tạo ra hoặc khuếch đại sự thiên vị của mô hình đối với một số nhóm nhân khẩu học nhất định.

Sửa lỗi sai lệch do bộ lọc dữ liệu gây ra

Các mô hình sinh ra cố gắng khớp với phân phối dữ liệu đào tạo của chúng, bao gồm bất kỳ sai lệch nào trong đó. Do đó, việc lọc dữ liệu đào tạo có khả năng tạo ra hoặc khuếch đại sai lệch trong các mô hình hạ lưu. Nhìn chung, việc sửa các sai lệch trong tập dữ liệu gốc là một nhiệm vụ xã hội kỹ thuật khó khăn mà chúng tôi tiếp tục nghiên cứu và nằm ngoài phạm vi của bài đăng này. Vấn đề chúng tôi giải quyết ở đây là sự khuếch đại các sai lệch do chính quá trình lọc dữ liệu gây ra. Với cách tiếp cận của mình, chúng tôi hướng đến mục tiêu ngăn mô hình đã lọc bị  sai lệch nhiều hơn  so với mô hình chưa lọc, về cơ bản là giảm sự dịch chuyển phân phối do lọc dữ liệu gây ra.

Là một ví dụ cụ thể về sự khuếch đại thiên vị do lọc, hãy xem xét lời nhắc "một giám đốc điều hành". Khi mô hình không lọc của chúng tôi tạo ra hình ảnh cho lời nhắc này, nó có xu hướng tạo ra nhiều hình ảnh nam hơn nữ và chúng tôi mong đợi rằng phần lớn sự thiên vị này là sự phản ánh dữ liệu đào tạo hiện tại của chúng tôi. Tuy nhiên, khi chúng tôi chạy cùng một lời nhắc thông qua mô hình đã lọc của mình, sự thiên vị dường như được khuếch đại; các thế hệ hầu như chỉ là hình ảnh nam giới.

Chúng tôi đưa ra giả thuyết rằng trường hợp khuếch đại sai lệch cụ thể này xuất phát từ hai nơi: thứ nhất, ngay cả khi phụ nữ và nam giới có sự đại diện gần như ngang nhau trong tập dữ liệu gốc, tập dữ liệu có thể bị thiên vị khi trình bày phụ nữ trong bối cảnh tình dục hơn; và thứ hai, bản thân các bộ phân loại của chúng tôi có thể bị thiên vị do quá trình triển khai hoặc định nghĩa lớp, mặc dù chúng tôi đã nỗ lực đảm bảo rằng điều này không xảy ra trong giai đoạn thu thập và xác thực dữ liệu. Do cả hai hiệu ứng này, bộ lọc của chúng tôi có thể loại bỏ nhiều hình ảnh phụ nữ hơn nam giới, điều này làm thay đổi tỷ lệ giới tính mà mô hình quan sát được trong quá trình đào tạo.

Để tìm hiểu sâu hơn về sự thiên vị do bộ lọc gây ra, chúng tôi muốn có một cách để đo lường mức độ các bộ lọc dữ liệu của chúng tôi ảnh hưởng đến sự thiên vị đối với các khái niệm khác nhau như thế nào. Đáng chú ý là các bộ lọc nội dung bạo lực và khiêu dâm của chúng tôi hoàn toàn dựa trên hình ảnh, nhưng bản chất đa phương thức của tập dữ liệu của chúng tôi cho phép chúng tôi đo lường trực tiếp tác động của các bộ lọc này lên văn bản. Vì mỗi hình ảnh đều đi kèm với chú thích văn bản, nên chúng tôi có thể xem xét tần suất tương đối của các từ khóa được chọn thủ công trên tập dữ liệu đã lọc và chưa lọc để ước tính mức độ các bộ lọc ảnh hưởng đến bất kỳ khái niệm nào.

Để đưa điều này vào thực tế, chúng tôi đã sử dụng Apache Spark để tính toán tần suất của một số ít từ khóa (ví dụ: "cha mẹ", "phụ nữ", "trẻ em") trên tất cả các chú thích trong cả tập dữ liệu đã lọc và chưa lọc của chúng tôi. Mặc dù tập dữ liệu của chúng tôi chứa hàng trăm triệu cặp văn bản-hình ảnh, việc tính toán tần suất từ ​​khóa này chỉ mất vài phút bằng cụm tính toán của chúng tôi.

Sau khi tính toán tần suất từ ​​khóa, chúng tôi có thể xác nhận rằng bộ lọc tập dữ liệu của chúng tôi thực sự đã làm lệch tần suất của một số từ khóa nhất định nhiều hơn những từ khóa khác. Ví dụ, bộ lọc đã giảm tần suất của từ “phụ nữ” xuống 14%, trong khi tần suất của từ “đàn ông” chỉ giảm 6%. Điều này đã xác nhận, trên quy mô lớn, những gì chúng tôi đã quan sát được một cách giai thoại bằng cách lấy mẫu từ các mô hình GLIDE được đào tạo trên cả hai tập dữ liệu.

Bây giờ chúng ta đã có một proxy để đo độ lệch do bộ lọc gây ra, chúng ta cần một cách để giảm thiểu nó. Để giải quyết vấn đề này, chúng ta đặt mục tiêu cân nhắc lại tập dữ liệu đã lọc để phân phối của nó khớp hơn với phân phối của hình ảnh chưa lọc. Để minh họa cho ý tưởng này, giả sử tập dữ liệu của chúng ta bao gồm 50% ảnh mèo và 50% ảnh chó, nhưng bộ lọc dữ liệu của chúng ta loại bỏ 75% chó nhưng chỉ 50% mèo. Tập dữ liệu cuối cùng sẽ là ⅔ mèo và ⅓ chó, và một mô hình tạo dựa trên khả năng được đào tạo trên tập dữ liệu này có khả năng tạo ra nhiều hình ảnh mèo hơn chó. Chúng ta có thể khắc phục sự mất cân bằng này bằng cách nhân độ mất mát khi đào tạo của mọi hình ảnh chó với 2, mô phỏng hiệu ứng lặp lại mọi hình ảnh chó hai lần. Hóa ra là chúng ta có thể mở rộng phương pháp tiếp cận này cho các tập dữ liệu và mô hình thực tế của mình theo cách phần lớn là tự động - nghĩa là chúng ta không cần phải chọn thủ công các tính năng mà chúng ta muốn cân nhắc lại.

Chúng tôi tính toán trọng số cho hình ảnh trong tập dữ liệu đã lọc bằng cách sử dụng xác suất từ ​​một bộ phân loại đặc biệt, tương tự như phương pháp được  Choi et al. (2019) sử dụng (mở trong cửa sổ mới). Để đào tạo bộ phân loại này, chúng tôi lấy mẫu hình ảnh đồng đều từ cả hai tập dữ liệu và dự đoán hình ảnh đó đến từ tập dữ liệu nào. Cụ thể, mô hình này dự đoán  P(unfiltered|image) , với điều kiện  P(unfiltered) = 0,5 trước đó . Trong thực tế, chúng tôi không muốn mô hình này quá mạnh, nếu không nó có thể học chính xác chức năng được bộ lọc của chúng tôi triển khai ngay từ đầu. Thay vào đó, chúng tôi muốn mô hình mượt mà hơn các bộ lọc dữ liệu gốc của mình, nắm bắt các danh mục rộng bị ảnh hưởng bởi các bộ lọc trong khi vẫn không chắc chắn liệu một hình ảnh cụ thể có được lọc hay không. Để đạt được mục đích này, chúng tôi đã đào tạo một đầu dò tuyến tính trên một  mô hình CLIP nhỏ  .

Khi chúng ta có một bộ phân loại dự đoán xác suất một hình ảnh đến từ tập dữ liệu chưa lọc, chúng ta vẫn cần chuyển đổi dự đoán này thành trọng số cho hình ảnh. Ví dụ, giả sử  P(unfiltered|image)  = 0,8. Điều này có nghĩa là mẫu có khả năng được tìm thấy trong dữ liệu chưa lọc cao hơn 4 lần so với dữ liệu đã lọc và trọng số 4 sẽ hiệu chỉnh sự mất cân bằng. Tổng quát hơn, chúng ta có thể sử dụng trọng số (unfiltered|image)/P(filtered|image) .

Sơ đồ cân nhắc lại này thực sự làm giảm độ lệch khuếch đại tốt như thế nào? Khi chúng tôi tinh chỉnh mô hình đã lọc trước đó của mình bằng sơ đồ cân nhắc mới, hành vi của mô hình đã tinh chỉnh khớp chặt chẽ hơn nhiều với mô hình chưa lọc trên các ví dụ có độ lệch mà chúng tôi đã tìm thấy trước đó. Mặc dù điều này rất đáng khích lệ, nhưng chúng tôi cũng muốn đánh giá quá trình giảm thiểu này kỹ lưỡng hơn bằng cách sử dụng phương pháp ước lượng độ lệch dựa trên từ khóa của mình. Để đo tần suất từ ​​khóa trong khi tính đến sơ đồ cân nhắc mới của mình, chúng tôi có thể chỉ cần cân nhắc mọi trường hợp của từ khóa trong tập dữ liệu đã lọc theo trọng số của mẫu chứa từ khóa đó. Khi thực hiện việc này, chúng tôi sẽ có được một tập hợp tần suất từ ​​khóa mới phản ánh trọng số mẫu trong tập dữ liệu đã lọc.

Trong hầu hết các từ khóa chúng tôi đã kiểm tra, lược đồ tái trọng số đã giảm sự thay đổi tần suất do lọc gây ra. Đối với các ví dụ trước đây của chúng tôi về "đàn ông" và "phụ nữ", mức giảm tần suất tương đối trở thành 1% và -1%, trong khi các giá trị trước đó của chúng lần lượt là 14% và 6%. Mặc dù số liệu này chỉ là một đại diện cho độ lệch lọc thực tế, nhưng thật an tâm khi lược đồ tái trọng số dựa trên hình ảnh của chúng tôi thực sự cải thiện số liệu dựa trên văn bản một cách đáng kể.

Chúng tôi đang tiếp tục điều tra những sai lệch còn lại trong DALL·E 2, một phần thông qua các đánh giá rộng hơn về hành vi của mô hình và điều tra cách lọc tác động đến sự sai lệch và phát triển năng lực.

Ngăn ngừa hiện tượng trào ngược hình ảnh

Chúng tôi nhận thấy rằng những người tiền nhiệm nội bộ của DALL·E 2 đôi khi sẽ sao chép nguyên văn các hình ảnh đào tạo. Hành vi này là không mong muốn, vì chúng tôi muốn DALL·E 2 tạo ra các hình ảnh gốc, độc đáo theo mặc định chứ không chỉ "ghép lại" các phần của hình ảnh hiện có. Ngoài ra, việc sao chép nguyên văn các hình ảnh đào tạo có thể gây ra các câu hỏi pháp lý xung quanh vấn đề vi phạm bản quyền, quyền sở hữu và quyền riêng tư (nếu ảnh của mọi người có trong dữ liệu đào tạo).

Để hiểu rõ hơn về vấn đề trào ngược hình ảnh, chúng tôi đã thu thập một tập dữ liệu các lời nhắc thường dẫn đến hình ảnh trùng lặp. Để thực hiện điều này, chúng tôi đã sử dụng một mô hình đã được đào tạo để lấy mẫu hình ảnh cho 50.000 lời nhắc từ tập dữ liệu đào tạo của chúng tôi và sắp xếp các mẫu theo mức độ tương đồng về mặt nhận thức với hình ảnh đào tạo tương ứng. Cuối cùng, chúng tôi đã kiểm tra các kết quả trùng khớp hàng đầu bằng tay, chỉ tìm thấy một vài trăm cặp trùng lặp thực sự trong tổng số 50.000 lời nhắc. Mặc dù tỷ lệ trào ngược có vẻ ít hơn 1%, chúng tôi cảm thấy cần phải giảm tỷ lệ xuống 0 vì những lý do nêu trên.

Khi chúng tôi nghiên cứu tập dữ liệu hình ảnh được nhai lại của mình, chúng tôi nhận thấy hai mô hình. Đầu tiên, hầu hết các hình ảnh đều là đồ họa vector đơn giản, có thể dễ nhớ do hàm lượng thông tin thấp. Thứ hai, và quan trọng hơn, tất cả các hình ảnh đều có nhiều bản sao gần giống nhau trong tập dữ liệu đào tạo. Ví dụ, có thể có một đồ họa vector trông giống như một chiếc đồng hồ hiển thị thời gian 1 giờ—nhưng sau đó chúng tôi sẽ khám phá ra một mẫu đào tạo chứa cùng một chiếc đồng hồ hiển thị 2 giờ, rồi 3 giờ, v.v. Khi nhận ra điều này, chúng tôi đã sử dụng tìm kiếm lân cận gần nhất phân tán để xác minh rằng, thực sự, tất cả các hình ảnh được nhai lại đều có các bản sao tương tự về mặt nhận thức trong tập dữ liệu. Khác (mở trong cửa sổ mới) tác phẩm (mở trong cửa sổ mới) đã quan sát thấy hiện tượng tương tự trong các mô hình ngôn ngữ lớn, nhận thấy rằng sự trùng lặp dữ liệu có liên quan chặt chẽ đến việc ghi nhớ.

Phát hiện trên cho thấy rằng, nếu chúng ta loại bỏ trùng lặp tập dữ liệu của mình, chúng ta có thể giải quyết được vấn đề trào ngược. Để đạt được điều này, chúng tôi đã lên kế hoạch sử dụng mạng nơ-ron để xác định các nhóm hình ảnh trông giống nhau, sau đó xóa tất cả trừ một hình ảnh khỏi mỗi nhóm.

Tuy nhiên, điều này sẽ yêu cầu kiểm tra, đối với mỗi hình ảnh, xem nó có phải là bản sao của mọi hình ảnh khác trong tập dữ liệu hay không. Vì toàn bộ tập dữ liệu của chúng tôi chứa hàng trăm triệu hình ảnh, nên chúng tôi sẽ ngây thơ cần kiểm tra hàng trăm nghìn tỷ cặp hình ảnh để tìm tất cả các bản sao. Mặc dù về mặt kỹ thuật, điều này nằm trong tầm tay, đặc biệt là trên một cụm tính toán lớn, nhưng chúng tôi đã tìm thấy một giải pháp thay thế hiệu quả hơn nhiều, hoạt động gần như tốt với chi phí chỉ bằng một phần nhỏ. Hãy xem xét điều gì xảy ra nếu chúng tôi nhóm tập dữ liệu của mình trước khi thực hiện loại bỏ trùng lặp. Vì các mẫu gần nhau thường rơi vào cùng một cụm, nên hầu hết các cặp trùng lặp sẽ không vượt qua ranh giới quyết định cụm. Sau đó, chúng tôi có thể loại bỏ trùng lặp các mẫu trong mỗi cụm mà không cần kiểm tra các bản sao bên ngoài cụm, trong khi chỉ bỏ sót một phần nhỏ trong số tất cả các cặp trùng lặp. Điều này nhanh hơn nhiều so với cách tiếp cận ngây thơ, vì chúng tôi không còn phải kiểm tra từng cặp hình ảnh nữa. C

Khi chúng tôi thử nghiệm phương pháp này theo kinh nghiệm trên một tập hợp con nhỏ trong dữ liệu của mình, nó đã tìm thấy 85% tất cả các cặp trùng lặp khi sử dụng cụm_K=1024_. Để cải thiện tỷ lệ thành công của thuật toán trên, chúng tôi đã tận dụng một quan sát chính: khi bạn nhóm các tập hợp con ngẫu nhiên khác nhau của một tập dữ liệu, ranh giới quyết định cụm kết quả thường khá khác nhau. Do đó, nếu một cặp trùng lặp vượt qua ranh giới cụm cho một cụm dữ liệu, thì cùng một cặp đó có thể nằm trong một cụm duy nhất trong một cụm khác. Bạn càng thử nhiều cụm, thì khả năng bạn khám phá ra một cặp trùng lặp nhất định càng cao. Trên thực tế, chúng tôi quyết định sử dụng năm cụm, nghĩa là chúng tôi tìm kiếm các bản sao của mỗi hình ảnh trong hợp của năm cụm khác nhau. Trên thực tế, điều này đã tìm thấy 97% tất cả các cặp trùng lặp trên một tập hợp con dữ liệu của chúng tôi.

Đáng ngạc nhiên là gần một phần tư tập dữ liệu của chúng tôi đã bị loại bỏ bằng cách loại bỏ trùng lặp. Khi chúng tôi xem xét các cặp gần trùng lặp được tìm thấy, nhiều cặp trong số đó bao gồm những thay đổi có ý nghĩa. Hãy nhớ lại ví dụ về đồng hồ ở trên: tập dữ liệu có thể bao gồm nhiều hình ảnh của cùng một chiếc đồng hồ vào các thời điểm khác nhau trong ngày. Mặc dù những hình ảnh này có thể khiến mô hình ghi nhớ hình dạng của chiếc đồng hồ cụ thể này, nhưng chúng cũng có thể giúp mô hình học cách phân biệt các thời điểm trong ngày trên một chiếc đồng hồ. Với lượng dữ liệu đã bị loại bỏ, chúng tôi lo ngại rằng việc loại bỏ những hình ảnh như thế này có thể làm giảm hiệu suất của mô hình.

Để kiểm tra hiệu ứng của việc loại bỏ trùng lặp trên các mô hình của chúng tôi, chúng tôi đã đào tạo hai mô hình với các siêu tham số giống hệt nhau: một trên toàn bộ tập dữ liệu và một trên phiên bản đã loại bỏ trùng lặp của tập dữ liệu. Để so sánh các mô hình, chúng tôi đã sử dụng cùng các đánh giá của con người mà chúng tôi đã sử dụng để đánh giá mô hình GLIDE ban đầu của mình. Đáng ngạc nhiên là chúng tôi thấy rằng những người đánh giá của con người  thích  mô hình được đào tạo trên dữ liệu đã loại bỏ trùng lặp hơn một chút, điều này cho thấy rằng số lượng lớn hình ảnh trùng lặp trong tập dữ liệu thực sự đang làm giảm hiệu suất.

Sau khi chúng tôi có một mô hình được đào tạo trên dữ liệu đã loại bỏ trùng lặp, chúng tôi chạy lại tìm kiếm hồi quy mà chúng tôi đã thực hiện trước đó trên 50 nghìn lời nhắc từ tập dữ liệu đào tạo. Chúng tôi thấy rằng mô hình mới không bao giờ hồi quy một hình ảnh đào tạo khi được đưa ra lời nhắc chính xác cho hình ảnh từ tập dữ liệu đào tạo. Để đưa bài kiểm tra này tiến thêm một bước nữa, chúng tôi cũng đã thực hiện tìm kiếm láng giềng gần nhất trên toàn bộ tập dữ liệu đào tạo cho mỗi hình ảnh trong số 50 nghìn hình ảnh được tạo ra. Theo cách này, chúng tôi nghĩ rằng chúng tôi có thể bắt gặp mô hình hồi quy một hình ảnh khác với hình ảnh được liên kết với lời nhắc nhất định. Ngay cả với lần kiểm tra kỹ lưỡng hơn này, chúng tôi không bao giờ tìm thấy trường hợp hồi quy hình ảnh.

Các bước tiếp theo

Mặc dù tất cả các biện pháp giảm thiểu được thảo luận ở trên đều thể hiện tiến bộ đáng kể hướng tới mục tiêu giảm thiểu rủi ro liên quan đến DALL·E 2, nhưng mỗi biện pháp giảm thiểu vẫn có chỗ để cải thiện:

+ Các bộ lọc tiền đào tạo tốt hơn có thể cho phép chúng ta đào tạo DALL·E 2 trên nhiều dữ liệu hơn và có khả năng giảm thêm độ lệch trong mô hình. Các bộ lọc hiện tại của chúng tôi được điều chỉnh để có tỷ lệ bỏ sót thấp với cái giá phải trả là nhiều kết quả dương tính giả. Do đó, chúng tôi đã lọc ra khoảng 5% toàn bộ tập dữ liệu của mình mặc dù hầu hết các hình ảnh đã lọc này không vi phạm chính sách nội dung của chúng tôi. Việc cải thiện các bộ lọc của chúng tôi có thể cho phép chúng tôi lấy lại một số dữ liệu đào tạo này.

+ Sự thiên vị được đưa vào và có khả năng khuếch đại ở nhiều giai đoạn phát triển và triển khai hệ thống. Đánh giá và giảm thiểu sự thiên vị trong các hệ thống như DALL·E 2 và tác hại do sự thiên vị này gây ra là một vấn đề liên ngành quan trọng mà chúng tôi tiếp tục nghiên cứu tại OpenAI như một phần trong sứ mệnh rộng lớn hơn của mình. Công việc của chúng tôi về vấn đề này bao gồm xây dựng các đánh giá để hiểu rõ hơn về vấn đề, quản lý các tập dữ liệu mới và áp dụng các kỹ thuật như phản hồi của con người và tinh chỉnh để xây dựng các công nghệ mạnh mẽ và đại diện hơn.

+ Điều quan trọng nữa là chúng ta phải tiếp tục nghiên cứu về ghi nhớ và khái quát hóa trong các hệ thống học sâu. Mặc dù việc loại bỏ trùng lặp là bước đầu tiên tốt để ngăn ngừa việc ghi nhớ, nhưng nó không cho chúng ta biết mọi thứ cần tìm hiểu về lý do hoặc cách các mô hình như DALL·E 2 ghi nhớ dữ liệu đào tạo.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt!

 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !