0965 636 913
Chat ngay

Chính phủ Iceland

Iceland sử dụng GPT-4 để bảo tồn ngôn ngữ của mình như thế nào

Iceland, một quốc đảo nằm giữa Bắc Đại Tây Dương, có ngành công nghiệp công nghệ sôi động và du lịch bùng nổ. Tuy nhiên, trong khi hầu hết trong số khoảng 370.000 công dân của quốc gia này nói tiếng Anh hoặc một ngôn ngữ thứ hai khác, thì việc hội nhập với Hoa Kỳ và Châu Âu đã khiến tiếng mẹ đẻ của quốc gia này, tiếng Iceland, gặp nguy cơ. Ngày nay, người ta ngày càng lo ngại rằng trong một vài thế hệ nữa, nếu tiếng Iceland không thể tiếp tục là ngôn ngữ mặc định của quốc gia này trước sự số hóa nhanh chóng, thì ngôn ngữ này có thể phải đối mặt với sự tuyệt chủng trên thực tế (mở trong cửa sổ mới).

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt

Người Iceland trân trọng ngôn ngữ của họ vì di sản văn hóa phong phú và mối liên hệ với bản sắc dân tộc. Chính phủ nước này duy trì một Sở Kế hoạch Ngôn ngữ (mở trong cửa sổ mới) tạo ra các thuật ngữ tiếng Iceland cho những ý tưởng mới, thay vì sử dụng cái gọi là "từ vay mượn" từ các ngôn ngữ khác. Ví dụ, máy tính là tölva ( "nữ tiên tri số"). Thông qua những nỗ lực này, ngôn ngữ vẫn giữ được bản sắc riêng biệt của nó (mở trong cửa sổ mới) và vẫn gắn chặt với nguồn gốc tiếng Na Uy cổ.

Theo sáng kiến (mở trong cửa sổ mới) của Tổng thống nước này, HE Guðni Th. Jóhannesson, và với sự giúp đỡ của ngành công nghiệp tư nhân, Iceland đã hợp tác với OpenAI để sử dụng GPT-4 trong nỗ lực bảo tồn tiếng Iceland—và biến thế phòng thủ thành cơ hội để đổi mới.

Quan hệ đối tác này không chỉ được hình thành như một cách để tăng cường khả năng phục vụ một góc mới của thế giới của GPT-4 mà còn là một bước hướng tới việc tạo ra các nguồn lực có thể phục vụ cho việc bảo tồn các ngôn ngữ khác có ít nguồn lực hơn.

“Quan hệ đối tác này không chỉ được hình thành như một cách để tăng cường khả năng phục vụ một góc mới của thế giới của GPT-4 mà còn là một bước tiến tới việc tạo ra các nguồn lực có thể phục vụ cho việc bảo tồn các ngôn ngữ khác có ít nguồn lực hơn.”

Jóhanna Vigdís Guðmundsdóttir, giám đốc điều hành của Almannarómur cho biết: "Chúng tôi muốn đảm bảo rằng trí tuệ nhân tạo sẽ không chỉ được sử dụng để giúp bảo tồn ngôn ngữ, văn hóa và lịch sử mà còn hỗ trợ sự thịnh vượng kinh tế".(mở trong cửa sổ mới), một trung tâm công nghệ ngôn ngữ phi lợi nhuận. “Tiếng Iceland là một trường hợp khá đặc biệt,” bà thừa nhận, “nhưng chúng tôi đã nhìn thấy cơ hội để trở thành người tiên phong cho các ngôn ngữ đuôi dài khác, giúp tạo ra một sân chơi bình đẳng và tránh 'phân chia AI'. Chỉ thu thập dữ liệu và xây dựng phần mềm cục bộ cho tiếng Iceland là chưa đủ; chúng tôi phải đưa ngôn ngữ của mình vào phần mềm và ứng dụng mà mọi người sử dụng hàng ngày.”

Các mô hình GPT của OpenAI được đào tạo trên một lượng lớn văn bản trên internet. Theo đó, hầu hết bộ đào tạo của mô hình là tiếng Anh và các ngôn ngữ chính khác, điều này có nghĩa là GPT không có cùng khả năng hoặc phạm vi hiểu biết ở các ngôn ngữ nhỏ hơn. Các mô hình đã được cải thiện theo thời gian, nhưng chúng không nhất quán tạo ra bản dịch tiếng Iceland rõ ràng và chính xác.

Tiếng Anh sang tiếng Iceland

Nhắc bạn người thừa kế Donald Duck á íslensku? Vịt Donald trong tiếng Iceland được gọi là gì?

Hoàn thành GPT-3 Vịt Donald heitir á íslensku Donaldi Kjáni Vịt Donald được gọi bằng tiếng Iceland Donaldi the Fool Sai

Hoàn thành ChatGPT Vịt Donald heitir sama nafni á íslensku og ensku Vịt Donald có cùng tên trong tiếng Iceland và tiếng Anh Không chính xác

Hoàn thành GPT-4 Vịt Donald người thừa kế Andrés Önd á íslensku Vịt Donald được gọi là Andrés Önd trong tiếng Iceland đúng

Ngay cả GPT-4, mặc dù tốt hơn nhiều so với GPT-3.5 về tiếng Iceland, cũng tạo ra tiếng Iceland với lỗi ngữ pháp, "translationese" và kiến ​​thức văn hóa không chính xác. Để thay đổi điều này, Vilhjálmur Þorsteinsson, giám đốc điều hành tại Miðeind ehf(mở trong cửa sổ mới), một công ty công nghệ ngôn ngữ tham gia vào sáng kiến ​​này, đã tập hợp một nhóm gồm 40 tình nguyện viên để đào tạo tài khoản Chat GPT-4 về ngữ pháp tiếng Iceland và kiến ​​thức văn hóa phù hợp. 

Trong một quy trình gọi là Học tăng cường từ phản hồi của con người, hay RLHF, người kiểm tra đưa ra lời nhắc cho GPT-4 và bốn khả năng hoàn thành được tạo ra. Sau đó, người kiểm tra chọn câu trả lời tốt nhất từ ​​bốn phản hồi và chỉnh sửa để tạo ra một hoàn thành lý tưởng. Dữ liệu từ quy trình này sau đó được sử dụng để đào tạo thêm GPT-4 nhằm tạo ra các phản hồi tốt hơn trong tương lai.

Trước khi có RLHF, quá trình tinh chỉnh mô hình đòi hỏi nhiều công sức và dữ liệu. Nhóm của Þorsteinsson đã cố gắng tinh chỉnh mô hình GPT-3 với 300.000 ví dụ tiếng Iceland, nhưng kết quả lại không như mong đợi.

“Khả năng tạo ra tiếng Iceland đúng ngữ pháp hoặc chính xác vẫn chưa có ở GPT-3.”
Vilhjálmur Þorsteinsson, Giám đốc điều hành, Miðeind ehf

Þorsteinsson cho biết: “Bây giờ chúng ta có thể chuyển trực tiếp sang các khả năng chung của các mô hình lớn và cho phép thực hiện những việc mà trước đây đòi hỏi nhiều công sức thủ công, chuẩn bị dữ liệu và thu thập tài nguyên cho từng trường hợp sử dụng bằng ngôn ngữ của chúng ta”. RLHF tạo ra kết quả chỉ với 100 ví dụ, giúp các ngôn ngữ khác có ít tài nguyên hơn, với ít dữ liệu ngôn ngữ kỹ thuật số hơn, có thể sao chép quy trình này. 

Bất kỳ mô hình ngôn ngữ nào, tùy thuộc vào sức mạnh và phạm vi của quá trình đào tạo dữ liệu, đều có thang đo các tác vụ mà nó có thể thực hiện. Các mô hình ngôn ngữ đơn giản bị giới hạn ở các tác vụ đơn giản như đánh giá cảm xúc của một dòng tweet hoặc xác định tên công ty. Các mô hình phức tạp hơn là các tác vụ đa nhiệm, có thể làm việc với các khái niệm trừu tượng, tính đến bối cảnh xã hội và môi trường và thậm chí thể hiện mức độ sáng tạo. Ví dụ, GPT-4 có thể tạo ra một bài thơ về những thay đổi thất thường của cuộc sống hiện đại theo phong cách của Völuspá (mở trong cửa sổ mới), một bài thơ cổ của Iceland từ Poetic Edda (mở trong cửa sổ mới) của thần thoại Bắc Âu.

 

Bối cảnh văn hóa

GPT-4 sẽ đưa ra câu trả lời khác nhau cho cùng một câu hỏi tùy thuộc vào ngôn ngữ bạn hỏi.

Nhắc (tiếng Iceland) Hvað sitja margir á þingi?

Hoàn thành Á Alþingi, sem er lögþing Íslands, sitja 63 þingmenn. Tại Alþingi, quốc hội Iceland, có 63 nghị sĩ.

Yêu cầu (Tiếng Anh) Có bao nhiêu nghị sĩ quốc hội?

Hoàn thành Tùy thuộc vào quốc gia bạn đang nhắc đến. Ví dụ: / • Tại Vương quốc Anh, Quốc hội có 650 thành viên tại Hạ viện và khoảng 800 thành viên tại Viện Quý tộc. / • Tại Canada, có 338 thành viên của Quốc hội tại Hạ viện và 105 thượng nghị sĩ tại Thượng viện. / • Tại Ấn Độ, có 545 thành viên tại Lok Sabha (Viện Nhân dân) và 245 thành viên tại Rajya Sabha (Hội đồng Nhà nước). / • Tại Úc, có 151 thành viên của Hạ viện và 76 thượng nghị sĩ tại Thượng viện.

Nhắc (tiếng Iceland) Hver er forseti núna?

Hoàn thành Forseti Íslands núna (2021) er Guðni Th. Jóhannesson. Tổng thống hiện tại (2021) của Iceland là Guðni Th. Jóhannesson.

Gợi ý (tiếng Anh) Hiện tại ai là chủ tịch?

Hoàn thành Tính đến năm 2021, Tổng thống Hoa Kỳ là Joe Biden.

Với một vòng RLHF đã hoàn thành, mô hình vẫn còn một số chỗ để cải thiện. Đây là công việc đang diễn ra của nhóm Iceland: tiếp tục đào tạo GPT-4 với đủ ví dụ để mô hình có thể cung cấp năng lượng cho các ứng dụng phức tạp và sáng tạo nhất bằng tiếng Iceland, thay vì mặc định là tiếng Anh, để các công ty Iceland có thể sớm triển khai GPT-4 bằng tiếng Iceland trong các ứng dụng tương tác của họ.

Phòng để cải thiện

Nhắc bạn có muốn nói chuyện với tôi về việc bạn sẽ ngồi trên ghế sofa như thế nào không? Việc trẻ sơ sinh Iceland được cho ngủ trưa bên ngoài xe đẩy có phổ biến không?

Hoàn thành Já, tôi đã nói về một điều gì đó mà bạn có thể làm với một chiếc ghế sofa nhỏ mà bạn muốn, sérstaklega á vori og sumri. Margir foreldrar telja að usetiloft và fersk hrein vindur séu góðir fyrir börnin và auki seu þau oftast rolegrið að sofna úti. Tôi có thể làm được điều đó với tôi và tôi đã đạt được thành công, và tôi đã vượt qua được điều đó khi không thể làm được điều đó.

Phần hoàn thiện đã sửa lỗi ngữ pháp và chính tả Já, það er algengt að íslensk börn séu látin sofa úti í vagni, sérstaklega á vori og sumri. Margir foreldrar telja að utililoft và ferskur hreinn vindur sé góður fyrir börnin og að auki séu þau oftast rólegri við að sofna úti. Tôi có thể làm được điều đó với tôi và tôi đã đạt được thành công, và tôi đã vượt qua được điều đó khi không thể làm được điều đó. Đúng vậy, trẻ sơ sinh Iceland thường ngủ trưa bên ngoài xe đẩy, đặc biệt là vào mùa xuân và mùa hè. Nhiều bậc phụ huynh nghĩ rằng không khí bên ngoài và gió trong lành tốt cho trẻ sơ sinh và hơn nữa, trẻ thường bình tĩnh hơn khi ngủ ngoài trời. Tốt nhất là chú ý đến thời tiết và nhiệt độ và đảm bảo rằng trẻ đủ ăn mặc phù hợp với hoàn cảnh.

Nhóm của Þorsteinsson không chỉ đào tạo công cụ ngôn ngữ mạnh nhất thế giới bằng ngôn ngữ của họ mà còn cung cấp cho toàn bộ một quốc gia cơ hội tương tác với các mô hình của OpenAI bằng ngôn ngữ của họ. Do đó, sử dụng GPT-4 làm nền tảng, Embla—ứng dụng trợ lý giọng nói của Miðeind—sẽ có thể trò chuyện với người dùng bằng tiếng Iceland trôi chảy, cũng như cung cấp bản dịch sang các ngôn ngữ khác. Một ví dụ khác, các công ty Iceland sẽ không phải dựa vào một chatbot nói tiếng Anh trên trang web của họ mà có thể có một chatbot bằng tiếng Iceland.

“Chúng tôi rất vui mừng về tác động của công trình của mình lên mô hình lớn hơn—và rất vui khi có sự hỗ trợ của OpenAI trong việc giúp tiếng Iceland tồn tại trong thời đại kỹ thuật số.”
Vilhjálmur Þorsteinsson, Giám đốc điều hành, Miðeind ehf
Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !