zalo
Chat ngay

Các mô hình ngôn ngữ tốt hơn và ý nghĩa của chúng

Chúng tôi đã đào tạo một mô hình ngôn ngữ không giám sát quy mô lớn có thể tạo ra các đoạn văn bản mạch lạc, đạt hiệu suất tiên tiến trên nhiều tiêu chuẩn mô hình hóa ngôn ngữ và thực hiện các chức năng đọc hiểu cơ bản, dịch máy, trả lời câu hỏi và tóm tắt - tất cả đều không cần đào tạo theo nhiệm vụ cụ thể.

Mô hình của chúng tôi, được gọi là tài khoản ChatGPT-4 (người kế nhiệm GPT ), được đào tạo đơn giản để dự đoán từ tiếp theo trong 40GB văn bản Internet. Do lo ngại về các ứng dụng độc hại của công nghệ, chúng tôi không phát hành mô hình đã đào tạo. Thay vào đó, chúng tôi phát hành một  mô hình nhỏ hơn nhiều để thử nghiệm về việc tiết lộ có trách nhiệm (mở trong cửa sổ mới) để các nhà nghiên cứu thử nghiệm, cũng như một  bài báo kỹ thuật (mở trong cửa sổ mới).

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt hấp dẫn 

GPT-2 là một  máy biến áp lớn (mở trong cửa sổ mới)- mô hình ngôn ngữ dựa trên 1,5 tỷ tham số, được đào tạo trên tập dữ liệu gồm 8 triệu trang web. GPT-2 được đào tạo với một mục tiêu đơn giản: dự đoán từ tiếp theo, cho tất cả các từ trước đó trong một số văn bản. Sự đa dạng của tập dữ liệu khiến mục tiêu đơn giản này chứa các bản trình diễn tự nhiên của nhiều tác vụ trên nhiều miền khác nhau. GPT-2 là bản mở rộng trực tiếp của GPT, với hơn 10X các tham số và được đào tạo trên hơn 10X lượng dữ liệu.

GPT-2 hiển thị một tập hợp rộng các khả năng, bao gồm khả năng tạo các mẫu văn bản tổng hợp có điều kiện với chất lượng chưa từng có, trong đó chúng tôi chuẩn bị mô hình bằng một đầu vào và để nó tạo ra một phần tiếp theo dài. Ngoài ra, GPT-2 vượt trội hơn các mô hình ngôn ngữ khác được đào tạo trên các miền cụ thể (như Wikipedia, tin tức hoặc sách) mà không cần sử dụng các tập dữ liệu đào tạo dành riêng cho miền này. Đối với các tác vụ ngôn ngữ như trả lời câu hỏi, hiểu đọc, tóm tắt và dịch, GPT-2 bắt đầu học các tác vụ này từ văn bản thô, không sử dụng dữ liệu đào tạo dành riêng cho tác vụ. Mặc dù điểm số trên các tác vụ hạ nguồn này còn lâu mới đạt đến trình độ tiên tiến, nhưng chúng cho thấy rằng các tác vụ có thể được hưởng lợi từ các kỹ thuật không giám sát, với đủ dữ liệu (không có nhãn) và tính toán.

Mẫu

GPT-2 tạo ra các mẫu văn bản tổng hợp để phản hồi mô hình được chuẩn bị bằng một đầu vào tùy ý. Mô hình này giống như tắc kè hoa—nó thích ứng với phong cách và nội dung của văn bản điều kiện. Điều này cho phép người dùng tạo ra các phần tiếp theo thực tế và mạch lạc về một chủ đề mà họ lựa chọn, như được thấy trong các mẫu được chọn sau đây. 

 con người viết)

Trong một phát hiện gây sốc, các nhà khoa học đã phát hiện ra một đàn kỳ lân sống trong một thung lũng xa xôi, chưa từng được khám phá, ở dãy núi Andes. Điều thậm chí còn gây ngạc nhiên hơn đối với các nhà nghiên cứu là thực tế là những con kỳ lân nói tiếng Anh hoàn hảo.

Hoàn thiện mô hình (viết bằng máy, 10 lần thử)

Nhà khoa học đặt tên cho quần thể này theo tên chiếc sừng đặc trưng của chúng là Kỳ lân Ovid. Những con kỳ lân bốn sừng, màu trắng bạc này trước đây chưa từng được khoa học biết đến.

Giờ đây, sau gần hai thế kỷ, bí ẩn về nguyên nhân gây ra hiện tượng kỳ lạ này cuối cùng cũng đã được giải đáp.

Tiến sĩ Jorge Pérez, một nhà sinh vật học tiến hóa đến từ Đại học La Paz, cùng một số người bạn đồng hành đã khám phá dãy núi Andes khi họ tìm thấy một thung lũng nhỏ, không có động vật hay con người nào khác. Pérez nhận thấy thung lũng này có vẻ như là một đài phun nước tự nhiên, được bao quanh bởi hai đỉnh núi đá và tuyết bạc.

Pérez và những người khác sau đó mạo hiểm đi sâu hơn vào thung lũng. Pérez cho biết: "Khi chúng tôi lên đến đỉnh của một đỉnh núi, nước trông có màu xanh lam, với một số tinh thể trên đỉnh".

Pérez và những người bạn của ông đã vô cùng kinh ngạc khi nhìn thấy đàn kỳ lân. Những sinh vật này có thể được nhìn thấy từ trên không mà không cần phải di chuyển quá nhiều để nhìn thấy chúng - chúng ở rất gần đến nỗi họ có thể chạm vào sừng của chúng.

Trong khi kiểm tra những sinh vật kỳ lạ này, các nhà khoa học phát hiện ra rằng những sinh vật này cũng nói một số tiếng Anh khá thông dụng. Pérez tuyên bố, “Ví dụ, chúng ta có thể thấy rằng chúng có một 'ngôn ngữ' chung, giống như phương ngữ hoặc biện chứng.”

Tiến sĩ Pérez tin rằng kỳ lân có thể có nguồn gốc từ Argentina, nơi mà người ta tin rằng những con vật này là hậu duệ của một chủng tộc người đã mất tích từng sống ở đó trước khi con người xuất hiện ở những vùng Nam Mỹ đó.

Mặc dù nguồn gốc của chúng vẫn chưa rõ ràng, một số người tin rằng có lẽ những sinh vật này được tạo ra khi một con người và một kỳ lân gặp nhau vào thời điểm trước nền văn minh của loài người. Theo Pérez, “Ở Nam Mỹ, những sự cố như vậy có vẻ khá phổ biến.”

Tuy nhiên, Pérez cũng chỉ ra rằng có khả năng cách duy nhất để biết chắc chắn liệu kỳ lân có thực sự là hậu duệ của một chủng tộc người ngoài hành tinh đã mất tích hay không là thông qua DNA. “Nhưng chúng dường như có thể giao tiếp bằng tiếng Anh khá tốt, tôi tin rằng đó là dấu hiệu của sự tiến hóa, hoặc ít nhất là sự thay đổi trong tổ chức xã hội,” nhà khoa học cho biết.

 

Như các mẫu trên cho thấy, mô hình của chúng tôi có khả năng tạo ra các mẫu từ nhiều lời nhắc khác nhau có cảm giác gần với chất lượng của con người và thể hiện tính mạch lạc trên một trang hoặc nhiều văn bản hơn. Tuy nhiên, chúng tôi đã quan sát thấy nhiều chế độ lỗi khác nhau, chẳng hạn như văn bản lặp lại, lỗi mô hình thế giới (ví dụ, mô hình đôi khi viết về  hỏa hoạn xảy ra dưới nước ) và chuyển đổi chủ đề không tự nhiên. Khám phá những loại điểm yếu này của các mô hình ngôn ngữ là  một (mở trong cửa sổ mới) khu vực (mở trong cửa sổ mới) của  nghiên cứu (mở trong cửa sổ mới) trong cộng đồng xử lý ngôn ngữ tự nhiên.

Nhìn chung, chúng tôi thấy rằng cần phải thử một vài lần để có được một mẫu tốt, với số lần thử tùy thuộc vào mức độ quen thuộc của mô hình với bối cảnh. Khi được nhắc với các chủ đề được thể hiện nhiều trong dữ liệu (Brexit, Miley Cyrus, Chúa tể của những chiếc nhẫn, v.v.), có vẻ như nó có khả năng tạo ra các mẫu hợp lý khoảng 50% thời gian. Điều ngược lại cũng đúng: đối với các loại nội dung có tính kỹ thuật cao hoặc khó hiểu, mô hình có thể hoạt động kém. Tinh chỉnh cung cấp tiềm năng kiểm soát chi tiết hơn nữa đối với các mẫu được tạo ra—ví dụ: chúng ta có thể tinh chỉnh GPT-2 trên tập dữ liệu Đánh giá của Amazon và sử dụng điều này để cho phép chúng ta viết các bài đánh giá có điều kiện dựa trên các yếu tố như xếp hạng sao và danh mục.

Những mẫu này có ý nghĩa chính sách đáng kể: các mô hình ngôn ngữ lớn ngày càng dễ điều hướng theo hướng tạo văn bản có thể mở rộng, tùy chỉnh, mạch lạc, từ đó có thể được sử dụng theo nhiều cách có lợi cũng như có hại. Chúng tôi sẽ thảo luận chi tiết hơn về những ý nghĩa này bên dưới và phác thảo một thử nghiệm xuất bản mà chúng tôi đang thực hiện theo những cân nhắc như vậy.

Không bắn

GPT-2 đạt được điểm số tiên tiến trên nhiều tác vụ mô hình hóa ngôn ngữ theo miền cụ thể. Mô hình của chúng tôi không được đào tạo trên bất kỳ dữ liệu nào cụ thể cho bất kỳ tác vụ nào trong số này và chỉ được đánh giá trên chúng như một bài kiểm tra cuối cùng; đây được gọi là thiết lập "zero-shot". GPT-2 hoạt động tốt hơn các mô hình được đào tạo trên các tập dữ liệu theo miền cụ thể (ví dụ Wikipedia, tin tức, sách) khi được đánh giá trên cùng các tập dữ liệu đó. Bảng sau đây hiển thị tất cả các kết quả zero-shot tiên tiến của chúng tôi.

(+) có nghĩa là điểm cao hơn thì tốt hơn cho miền này. (–) có nghĩa là điểm thấp hơn thì tốt hơn.

Bộ dữ liệu

Hệ mét

Kết quả của chúng tôi

Kỷ lục trước đó

Nhân loại

Thử thách sơ đồ Winograd

độ chính xác (+)

70,70%

63,7%

92%+

LAMBADA

độ chính xác (+)

63,24%

59,23%

95%+

LAMBADA

sự bối rối (–)

8.6

99

~1–2

Bài kiểm tra sách thiếu nhi Danh từ chung (độ chính xác xác thực)

độ chính xác (+)

93,30%

85,7%

96%

Kiểm tra sách thiếu nhi về các thực thể được đặt tên (độ chính xác xác thực)

độ chính xác (+)

89,05%

82,3%

92%

Ngân hàng Penn Tree

sự bối rối (–)

35,76

46,54

không rõ

WikiText-2

sự bối rối (–)

18.34

39,14

không rõ

enwik8

bit trên một ký tự (–)

0,93

0,99

không rõ

văn bản8

bit trên một ký tự (–)

0,98

1.08

không rõ

WikiText-103

sự bối rối (–)

17,48

18.3

không rõ

GPT-2 đạt được trình độ tiên tiến nhất trong Winograd Schema, LAMBADA và các tác vụ mô hình hóa ngôn ngữ khác.

Đối với các nhiệm vụ ngôn ngữ khác như trả lời câu hỏi, hiểu đọc, tóm tắt và dịch thuật, chúng tôi có thể nhận được kết quả đáng ngạc nhiên mà không cần tinh chỉnh mô hình, chỉ bằng cách nhắc nhở mô hình đã đào tạo theo đúng cách (xem ví dụ bên dưới về cách chúng tôi thực hiện việc này), mặc dù chúng tôi vẫn chưa đạt đến trình độ tiên tiến nhất đối với các hệ thống chuyên dụng.

Ví dụ
 
Lễ rước đuốc Thế vận hội Mùa hè 2008 diễn ra từ ngày 24 tháng 3 đến ngày 8 tháng 8 năm 2008, trước Thế vận hội Mùa hè 2008, với chủ đề "một thế giới, một giấc mơ". Kế hoạch rước đuốc được công bố vào ngày 26 tháng 4 năm 2007 tại Bắc Kinh, Trung Quốc. Lễ rước đuốc, còn được ban tổ chức gọi là "Hành trình hòa hợp", kéo dài 129 ngày và rước đuốc đi được 137.000 km (85.000 dặm) - quãng đường rước đuốc Olympic dài nhất kể từ khi truyền thống này bắt đầu trước Thế vận hội Mùa hè 1936.

Sau khi được thắp sáng tại nơi khai sinh ra Thế vận hội Olympic ở Olympia, Hy Lạp vào ngày 24 tháng 3, ngọn đuốc đã đi đến Sân vận động Panathinaiko ở Athens, rồi đến Bắc Kinh và đến nơi vào ngày 31 tháng 3. Từ Bắc Kinh, ngọn đuốc đã đi theo một lộ trình đi qua sáu châu lục. Ngọn đuốc đã đến thăm các thành phố dọc theo Con đường tơ lụa, tượng trưng cho mối liên kết cổ xưa giữa Trung Quốc và phần còn lại của thế giới. Tiếp sức cũng bao gồm một cuộc rước đuốc lên đỉnh Everest ở biên giới Nepal và Tây Tạng, Trung Quốc từ phía Trung Quốc, nơi được đóng cửa đặc biệt cho sự kiện này.

H: Chủ đề là gì?

Đáp: "Một thế giới, một giấc mơ".

H: Chiều dài của cuộc đua là bao nhiêu?

Đáp: 137.000 km H: Nó có lớn hơn những cuộc đua trước không?

Đáp: Không Q: Cuộc đua bắt đầu ở đâu?

Đáp: Olympia, Hy Lạp Q: Có điều gì đáng chú ý về địa điểm đó không? Đáp

: nơi khai sinh của Thế vận hội Olympic Q: Họ đã đi đâu sau đó?

Đáp: Athens Q: Cuộc đua kéo dài bao nhiêu ngày?

Đáp: Bảy Q: Họ có ghé thăm bất kỳ địa danh nổi tiếng nào không?

Đáp: Sân vận động Panathinaiko Q: Và họ có leo lên bất kỳ ngọn núi nào không? Đáp

:

Câu trả lời mục tiêu: không rõ hoặc có
Câu trả lời mẫu: Everest
 

Chúng tôi đưa ra giả thuyết rằng vì các tác vụ này là một tập hợp con của mô hình ngôn ngữ chung, chúng tôi có thể mong đợi hiệu suất tăng thêm với nhiều tính toán và dữ liệu hơn. Những người khác đã công bố  các giả thuyết tương tự (mở trong cửa sổ mới). Chúng tôi cũng mong đợi việc tinh chỉnh sẽ giúp cải thiện hiệu suất của các tác vụ tiếp theo, mặc dù chúng tôi vẫn chưa thực hiện các thử nghiệm kỹ lưỡng.

Ý nghĩa chính sách

Các mô hình ngôn ngữ chung, lớn có thể có tác động xã hội đáng kể và cũng có nhiều ứng dụng trong thời gian ngắn. Chúng ta có thể dự đoán cách các hệ thống như GPT-2 có thể được sử dụng để tạo ra:

+ Trợ lý viết AI

+ Các tác nhân đối thoại có năng lực hơn

+ Bản dịch không giám sát giữa các ngôn ngữ

+ Hệ thống nhận dạng giọng nói tốt hơn

Chúng ta cũng có thể hình dung việc sử dụng các mô hình này cho mục đích xấu , bao gồm những mục đích sau (hoặc các mục đích khác mà chúng ta chưa thể lường trước):

+ Tạo ra các bài báo gây hiểu lầm

+ Mạo danh người khác trực tuyến

+ Tự động sản xuất nội dung lạm dụng hoặc giả mạo để đăng lên mạng xã hội

+ Tự động hóa việc sản xuất nội dung spam/lừa đảo

Những phát hiện này, kết hợp với các kết quả trước đó về hình ảnh tổng hợp, âm thanh và video, ngụ ý rằng các công nghệ đang làm giảm chi phí tạo nội dung giả mạo và tiến hành các chiến dịch thông tin sai lệch. Công chúng nói chung sẽ cần phải trở nên hoài nghi hơn về văn bản mà họ tìm thấy trực tuyến, giống như " tin giả sâu "(mở trong cửa sổ mới)” hiện tượng này đòi hỏi sự hoài nghi nhiều hơn về hình ảnh. C

Ngày nay, những kẻ xấu - một số trong số đó có bản chất chính trị - đã bắt đầu nhắm mục tiêu vào các tài sản chung trực tuyến, sử dụng những thứ như (mở trong cửa sổ mới) “các công cụ rô-bốt, tài khoản giả và các nhóm chuyên dụng để troll cá nhân bằng những bình luận hoặc lời bôi nhọ mang tính thù hận khiến họ sợ nói, hoặc khó được lắng nghe hoặc tin tưởng”. Chúng ta nên cân nhắc cách nghiên cứu về việc tạo ra hình ảnh, video, âm thanh và văn bản tổng hợp có thể kết hợp thêm để mở khóa các khả năng mới chưa từng thấy cho những tác nhân này và nên tìm cách tạo ra các biện pháp đối phó kỹ thuật và phi kỹ thuật tốt hơn. Hơn nữa, những cải tiến kỹ thuật cơ bản vốn có trong các hệ thống này là cốt lõi đối với nghiên cứu trí tuệ nhân tạo cơ bản, vì vậy không thể kiểm soát nghiên cứu trong các lĩnh vực này mà không làm chậm tiến trình của AI nói chung.

Chiến lược phát hành

Do lo ngại về việc sử dụng các mô hình ngôn ngữ lớn để tạo ra ngôn ngữ lừa dối, thiên vị hoặc lạm dụng ở quy mô lớn, chúng tôi chỉ phát hành  phiên bản nhỏ hơn nhiều của GPT-2 cùng với mã mẫu (mở trong cửa sổ mới). Chúng tôi không phát hành tập dữ liệu, mã đào tạo hoặc trọng số mô hình GPT-2. Gần một năm trước, chúng tôi đã viết trong  Hiến chương OpenAI : "chúng tôi hy vọng rằng các mối quan tâm về an toàn và bảo mật sẽ làm giảm việc xuất bản truyền thống của chúng tôi trong tương lai, đồng thời tăng tầm quan trọng của việc chia sẻ nghiên cứu về an toàn, chính sách và tiêu chuẩn" và chúng tôi coi công trình hiện tại này có khả năng đại diện cho sự khởi đầu ban đầu của những mối quan tâm như vậy, mà chúng tôi hy vọng có thể phát triển theo thời gian. Quyết định này, cũng như cuộc thảo luận của chúng tôi về nó, là một thử nghiệm: mặc dù chúng tôi không chắc chắn rằng đây là quyết định đúng đắn hiện nay, nhưng chúng tôi tin rằng cộng đồng AI cuối cùng sẽ cần giải quyết vấn đề về chuẩn mực xuất bản theo cách chu đáo trong một số lĩnh vực nghiên cứu nhất định. Các ngành khác như công nghệ sinh học và an ninh mạng từ lâu đã có những cuộc tranh luận tích cực về việc xuất bản có trách nhiệm trong các trường hợp có khả năng sử dụng sai mục đích rõ ràng và chúng tôi hy vọng rằng thử nghiệm của chúng tôi sẽ đóng vai trò là một nghiên cứu điển hình cho các cuộc thảo luận sắc thái hơn về các quyết định phát hành mô hình và mã trong cộng đồng AI.

Chúng tôi biết rằng một số nhà nghiên cứu có năng lực kỹ thuật để tái tạo và mở nguồn kết quả của chúng tôi. Chúng tôi tin rằng chiến lược phát hành của chúng tôi hạn chế nhóm tổ chức ban đầu có thể chọn làm điều này và cung cấp cho cộng đồng AI nhiều thời gian hơn để thảo luận về ý nghĩa của các hệ thống như vậy.

Chúng tôi cũng cho rằng các chính phủ nên cân nhắc mở rộng hoặc bắt đầu các sáng kiến ​​để giám sát có hệ thống hơn tác động xã hội và sự lan truyền của các công nghệ AI, và để đo lường sự tiến triển trong khả năng của các hệ thống như vậy. Nếu được theo đuổi, những nỗ lực này có thể tạo ra cơ sở bằng chứng tốt hơn cho các quyết định của phòng thí nghiệm AI và chính phủ liên quan đến các quyết định công bố và chính sách AI nói chung.

Chúng tôi sẽ tiếp tục thảo luận công khai về chiến lược này trong sáu tháng nữa. Nếu bạn muốn thảo luận về các mô hình ngôn ngữ lớn và ý nghĩa của chúng, vui lòng gửi email cho chúng tôi. Và nếu bạn hào hứng làm việc trên các mô hình ngôn ngữ tiên tiến (và suy nghĩ về ý nghĩa chính sách của chúng),  chúng tôi đang tuyển dụng .

Bản cập nhật tạm thời GPT-2, tháng 5 năm 2019

Chúng tôi đang triển khai hai cơ chế để xuất bản GPT-2 một cách có trách nhiệm và hy vọng là các bản phát hành trong tương lai: phát hành theo giai đoạn và chia sẻ dựa trên quan hệ đối tác. Chúng tôi hiện đang  phát hành (mở trong cửa sổ mới) phiên bản 345M lớn hơn của GPT-2 là bước tiếp theo trong quá trình phát hành theo từng giai đoạn và đang chia sẻ phiên bản 762M và 1.5B với các đối tác trong cộng đồng AI và bảo mật đang nỗ lực cải thiện sự chuẩn bị của xã hội cho các mô hình ngôn ngữ lớn.

Phát hành theo giai đoạn

Phát hành theo giai đoạn liên quan đến việc phát hành dần dần một nhóm mô hình theo thời gian. Mục đích của việc phát hành theo giai đoạn GPT-2 của chúng tôi là để mọi người có thời gian đánh giá các đặc tính của các mô hình này, thảo luận về các tác động xã hội của chúng và đánh giá tác động của việc phát hành sau mỗi giai đoạn.

Là bước tiếp theo trong chiến lược phát hành theo giai đoạn của chúng tôi, chúng tôi đang phát hành phiên bản tham số 345M của GPT-2. Mô hình này có hiệu suất được cải thiện so với phiên bản 117M, mặc dù kém hơn phiên bản 1.5B về khả năng tạo văn bản mạch lạc. Chúng tôi rất vui mừng khi thấy rất nhiều ứng dụng tích cực của GPT-2-117M và hy vọng rằng 345M sẽ mang lại nhiều lợi ích hơn nữa.

Mặc dù rủi ro sử dụng sai mục đích của 345M cao hơn 117M, chúng tôi tin rằng nó thấp hơn đáng kể so với 1,5B và chúng tôi tin rằng các hệ thống đào tạo có khả năng tương tự như GPT-2-345M đã nằm trong tầm với của nhiều bên; bối cảnh sao chép đang phát triển này đã ảnh hưởng đến quyết định của chúng tôi về việc nên phát hành những gì.

Khi đưa ra quyết định phát hành 345M, một số yếu tố chúng tôi cân nhắc bao gồm: tính dễ sử dụng (của nhiều người dùng) của các kích thước mô hình khác nhau để tạo văn bản mạch lạc, vai trò của con người trong quá trình tạo văn bản, khả năng và thời điểm sao chép và xuất bản trong tương lai của những người khác, bằng chứng về việc sử dụng trong tự nhiên và suy luận của chuyên gia về những cách sử dụng không thể quan sát được, bằng chứng về khái niệm như trình tạo đánh giá được đề cập trong bài đăng trên blog gốc, sức mạnh của nhu cầu đối với các mô hình cho mục đích có lợi và ý kiến ​​đóng góp của các bên liên quan và chuyên gia. Chúng tôi vẫn chưa chắc chắn về một số biến số này và tiếp tục hoan nghênh ý kiến ​​đóng góp về cách đưa ra quyết định xuất bản mô hình ngôn ngữ phù hợp.

Chúng tôi hy vọng rằng nghiên cứu đang diễn ra về sự thiên vị, phát hiện và sử dụng sai sẽ giúp chúng tôi tự tin hơn để công bố các mô hình lớn hơn một cách kịp thời và sau sáu tháng, chúng tôi sẽ chia sẻ phân tích đầy đủ hơn về tác động xã hội của các mô hình ngôn ngữ và phương pháp tiếp cận của chúng tôi để đưa ra quyết định phát hành.

Bộ dữ liệu đầu ra

Chúng tôi đang  phát hành (mở trong cửa sổ mới) một tập dữ liệu đầu ra GPT-2 từ tất cả 4 kích thước mô hình, có và không có cắt bỏ top-k, cũng như một tập hợp con của ngữ liệu WebText được sử dụng để đào tạo GPT-2. Tập dữ liệu đầu ra có khoảng 250.000 mẫu cho mỗi cặp mô hình/siêu tham số, chúng tôi hy vọng là đủ để giúp nhiều nhà nghiên cứu hơn thực hiện phân tích định lượng và định tính về ba chủ đề trên. Cùng với các tập dữ liệu này, chúng tôi đang bao gồm một phân tích cơ sở về một số thuộc tính liên quan đến phát hiện của các mô hình, mà chúng tôi hy vọng những người khác sẽ có thể nhanh chóng xây dựng.

Nói chuyện với chúng tôi

Chúng tôi quan tâm đến việc hợp tác với các nhà nghiên cứu đang làm việc về phát hiện đầu ra của mô hình ngôn ngữ, sự thiên vị và chuẩn mực xuất bản, cũng như với các tổ chức có khả năng bị ảnh hưởng bởi các mô hình ngôn ngữ lớn: vui lòng liên hệ qua  Google Form của chúng tôi (mở trong cửa sổ mới). Ngoài ra, các nhóm ngôn ngữ, an toàn và chính sách của OpenAI sẽ có mặt tại  ICLR (mở trong cửa sổ mới) tuần tới, bao gồm tại hội thảo Reproducibility và gian hàng OpenAI. Đặc biệt, chúng tôi sẽ thảo luận về chiến lược phát hành này tại  AI for Social Good (mở trong cửa sổ mới) xưởng.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !