zalo
Chat ngay

Kỹ thuật để cải thiện độ tin cậy

Khi GPT-3 không thực hiện được tác vụ nào đó, bạn nên làm gì?

  • Bạn đang tìm kiếm lời nhắc tốt hơn có thể đưa ra câu trả lời đáng tin cậy hơn?
  • Đầu tư vào hàng ngàn ví dụ để tinh chỉnh một mô hình tùy chỉnh?
  • Giả sử mô hình không có khả năng thực hiện nhiệm vụ và tiếp tục?

Không có câu trả lời đơn giản - tùy thuộc. Tuy nhiên, nếu nhiệm vụ của bạn liên quan đến lý luận logic hoặc sự phức tạp, hãy cân nhắc thử các kỹ thuật trong bài viết này để xây dựng lời nhắc đáng tin cậy hơn, hiệu suất cao hơn.

Tại sao GPT-3 không thực hiện được các tác vụ phức tạp

Nếu bạn được yêu cầu nhân 13 với 17, câu trả lời có xuất hiện ngay trong đầu bạn không? Đối với hầu hết chúng ta, có lẽ là không. Tuy nhiên, điều đó không có nghĩa là con người không có khả năng nhân hai chữ số. Chỉ cần vài giây, cùng với một ít bút và giấy, bạn sẽ không quá khó khăn để tính ra 13 x 17 = 130 + 70 + 21 = 221.

Tương tự như vậy, nếu bạn giao cho GPT-3 một nhiệm vụ quá phức tạp để thực hiện trong thời gian tính toán mã thông báo tiếp theo, nó có thể đưa ra một dự đoán không chính xác. Tuy nhiên, giống như con người, điều đó không nhất thiết có nghĩa là mô hình không có khả năng thực hiện nhiệm vụ. Với một chút thời gian và không gian để lý giải mọi thứ, mô hình vẫn có thể trả lời một cách đáng tin cậy.

  • Sở hữu ngay tài khoản Chat GPT Plus để thực hiện được các tác vụ phức tạp chỉ với vài bước đơn giản

Ví dụ, nếu bạn hỏi gpt-3.5-turbo-instructbài toán sau về trò tung hứng bóng, kết quả sẽ không chính xác:

Q: A juggler has 16 balls. Half of the balls are golf balls and half of the golf balls are blue. How many blue golf balls are there?A:
There are 8 blue golf balls.

Điều này có nghĩa là GPT-3 không thể giải các bài toán đơn giản? Không; thực tế, bằng cách nhắc mô hình với Let's think step by step, mô hình giải quyết vấn đề một cách đáng tin cậy:

Q: A juggler has 16 balls. Half of the balls are golf balls and half of the golf balls are blue. How many blue golf balls are there?A: Let's think step by step.
There are 16 balls in total.Half of the balls are golf balls.That means that there are 8 golf balls.Half of the golf balls are blue.That means that there are 4 blue golf balls.

Tất nhiên, thật khó để biết liệu Let's think step by stepmẹo này có thực sự hiệu quả hay chỉ may mắn với bài toán cụ thể này chỉ từ một ví dụ. Nhưng nó thực sự hiệu quả. Trên chuẩn mực của các bài toán toán bằng lời, mẹo này Let's think step by stepđã nâng tỷ lệ giải của GPT-3 lên rất nhiều, từ 18% vô giá trị lên 79%!

Khả năng của mô hình phụ thuộc vào ngữ cảnh

Khi học cách làm việc với GPT-3, một lỗi khái niệm phổ biến là tin rằng khả năng của nó là cố định trong mọi bối cảnh. Ví dụ, nếu GPT-3 trả lời sai một câu hỏi logic đơn giản, thì nó phải không có khả năng logic đơn giản.

Nhưng như ví Let's think step by stepdụ minh họa, đôi khi lỗi rõ ràng của GPT-3 có thể được khắc phục bằng lời nhắc tốt hơn giúp mô hình tự điều hướng đến đầu ra chính xác.

Làm thế nào để cải thiện độ tin cậy trong các nhiệm vụ phức tạp

Phần còn lại của bài viết này chia sẻ các kỹ thuật để cải thiện độ tin cậy của các mô hình ngôn ngữ lớn trên các tác vụ phức tạp. Mặc dù một số kỹ thuật dành riêng cho một số loại vấn đề nhất định, nhiều kỹ thuật trong số đó được xây dựng dựa trên các nguyên tắc chung có thể áp dụng cho nhiều tác vụ khác nhau, ví dụ:

  • Đưa ra hướng dẫn rõ ràng hơn
  • Chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ nhỏ đơn giản hơn
  • Cấu trúc hướng dẫn để giữ cho mô hình thực hiện nhiệm vụ
  • Yêu cầu người mẫu giải thích trước khi trả lời
  • Hãy yêu cầu lý giải cho nhiều câu trả lời có thể có, sau đó tổng hợp
  • Tạo ra nhiều đầu ra, sau đó sử dụng mô hình để chọn đầu ra tốt nhất
  • Tinh chỉnh các mô hình tùy chỉnh để tối đa hóa hiệu suất

Chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ đơn giản hơn

Một cách để cung cấp cho mô hình nhiều thời gian và không gian hơn để suy nghĩ là chia nhỏ nhiệm vụ thành những phần đơn giản hơn.

Ví dụ, hãy xem xét một nhiệm vụ mà chúng ta yêu cầu mô hình một câu hỏi trắc nghiệm về một số văn bản - trong trường hợp này là trò chơi Clue. Khi được hỏi trực tiếp, gpt-3.5-turbo-instructkhông thể ghép các manh mối 3 và 5 lại với nhau và trả lời không chính xác:

Use the following clues to answer the following multiple-choice question.Clues:1. Miss Scarlett was the only person in the lounge.2. The person with the pipe was in the kitchen.3. Colonel Mustard was the only person in the observatory.4. Professor Plum was not in the library nor the billiard room.5. The person with the candlestick was in the observatory.Question: Was Colonel Mustard in the observatory with the candlestick?(a) Yes; Colonel Mustard was in the observatory with the candlestick(b) No; Colonel Mustard was not in the observatory with the candlestick(c) Unknown; there is not enough information to determine whether Colonel Mustard was in the observatory with the candlestickSolution:
(c) Unknown; there is not enough information to determine whether Colonel Mustard was in the observatory with the candlestick

Mặc dù manh mối 3 và 5 chứng minh rằng Đại tá Mustard là người duy nhất trong đài quan sát và người trong đài quan sát có chân nến, nhưng mô hình không thể kết hợp chúng thành câu trả lời đúng là (a) Có.

Tuy nhiên, thay vì yêu cầu trả lời trực tiếp, chúng ta có thể chia nhiệm vụ thành ba phần:

  • Đầu tiên, hãy xem xét từng manh mối một và cân nhắc xem manh mối đó có liên quan hay không
  • Thứ hai, kết hợp các manh mối có liên quan để lý giải câu trả lời cho câu hỏi
  • Thứ ba, viết câu trả lời cuối cùng: (a), (b) hoặc (c)
Use the following clues to answer the following multiple-choice question, using the following procedure:(1) First, go through the clues one by one and consider whether the clue is potentially relevant(2) Second, combine the relevant clues to reason out the answer to the question(3) Third, map the answer to one of the multiple choice answers: either (a), (b), or (c)Clues:1. Miss Scarlett was the only person in the lounge.2. The person with the pipe was in the kitchen.3. Colonel Mustard was the only person in the observatory.4. Professor Plum was not in the library nor the billiard room.5. The person with the candlestick was in the observatory.Question: Was Colonel Mustard in the observatory with the candlestick?(a) Yes; Colonel Mustard was in the observatory with the candlestick(b) No; Colonel Mustard was not in the observatory with the candlestick(c) Unknown; there is not enough information to determine whether Colonel Mustard was in the observatory with the candlestickSolution:(1) First, go through the clues one by one and consider whether the clue is potentially relevant:
Clue 1: Miss Scarlett was the only person in the lounge. This clue is not relevant.Clue 2: The person with the pipe was in the kitchen. This clue is not relevant.Clue 3: Colonel Mustard was the only person in the observatory. This clue is relevant.Clue 4: Professor Plum was not in the library nor the billiard room. This clue is not relevant.Clue 5: The person with the candlestick was in the observatory. This clue is relevant.(2) Second, combine the relevant clues to reason out the answer to the question:Clue 3 and Clue 5 both say that the person with the candlestick was in the observatory. Colonel Mustard was the only person in the observatory, so Colonel Mustard was the person with the candlestick.(3) Third, write the final answer:(a) Yes; Colonel Mustard was in the observatory with the candlestick

Bằng cách cung cấp cho mô hình nhiều thời gian và không gian hơn để suy nghĩ, và hướng dẫn nó theo một kế hoạch lý luận, nó có thể tìm ra câu trả lời đúng cho câu hỏi (a) Có.

Một lợi ích khác của việc chia các hướng dẫn phức tạp thành các tác vụ nhỏ hơn là nó có thể giúp mô hình tập trung vào từng tác vụ nhỏ.

Ví dụ, nếu chúng ta yêu cầu gpt-3.5-turbo-instructtóm tắt một văn bản bằng ngôn ngữ gốc, mô hình có thể chuyển lại thành tiếng Anh:

Summarize the text using the original language of the text. The summary should be one sentence long.

Text:
"""
La estadística (la forma femenina del término alemán Statistik, derivado a su vez del italiano statista, "hombre de Estado")​ es una ciencia que estudia la variabilidad, colección, organización, análisis, interpretación, y presentación de los datos, así como el proceso aleatorio que los genera siguiendo las leyes de la probabilidad.​ La estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
"""

Summary:

The text explains that statistics is a science that studies the variability, collection, organization, analysis, interpretation, and presentation of data, as well as the random process that generates them following the laws of probability.

Tuy nhiên, nếu trước tiên chúng ta yêu cầu mô hình xác định ngôn ngữ của văn bản, sau đó tóm tắt văn bản, thì mô hình sẽ đáng tin cậy hơn:

First, identify the language of the text. Second, summarize the text using the original language of the text. The summary should be one sentence long.
Text:
"""
La estadística (la forma femenina del término alemán Statistik, derivado a su vez del italiano statista, "hombre de Estado")​ es una ciencia que estudia la variabilidad, colección, organización, análisis, interpretación, y presentación de los datos, así como el proceso aleatorio que los genera siguiendo las leyes de la probabilidad.​ La estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
"""
Language:

Yêu cầu người mẫu giải thích trước khi trả lời

Một kỹ thuật mạnh mẽ khác để cải thiện độ tin cậy của câu trả lời là nhắc nhở mô hình suy luận dần dần câu trả lời thay vì nhảy ngay đến câu trả lời cuối cùng. Bằng cách 'suy nghĩ thành tiếng', mô hình có thể có nhiều khả năng đưa ra câu trả lời đúng hơn.

Không bắn

Phương pháp

Được Takeshi Kojima và cộng sự công bố vào năm 2022 , cách dễ nhất để thúc đẩy mô hình đưa ra câu trả lời là chỉ cần thêm câu trả lời vào trước. Let's think step by step.Hình 2 minh họa một ví dụ:

 

Kết quả

Áp dụng mẹo đơn giản này vào tập dữ liệu toán học MultiArith, các tác giả nhận thấy Let's think step by stepđộ chính xác tăng gấp bốn lần, từ 18% lên 79%!

Ý nghĩa

Mặc dù Let's think step by stepmẹo này hiệu quả với các bài toán, nhưng không hiệu quả với mọi nhiệm vụ. Các tác giả nhận thấy mẹo này hữu ích nhất với các bài toán số học nhiều bước, các bài toán lý luận tượng trưng, ​​các bài toán chiến lược và các bài toán lý luận khác. Mẹo này không hiệu quả với các bài toán đơn giản hoặc các câu hỏi thông thường, và có lẽ cũng không hiệu quả với nhiều bài toán không lý luận khác.

 

Để tìm hiểu thêm, hãy đọc toàn bộ bài báo .

Nếu bạn áp dụng kỹ thuật này vào các tác vụ của riêng mình, đừng ngại thử nghiệm tùy chỉnh hướng dẫn. Let's think step by stepkhá chung chung, vì vậy bạn có thể thấy hiệu suất tốt hơn với các hướng dẫn tuân theo định dạng chặt chẽ hơn được tùy chỉnh theo trường hợp sử dụng của bạn. Ví dụ, bạn có thể thử các biến thể có cấu trúc hơn như First, think step by step about why X might be true. Second, think step by step about why Y might be true. Third, think step by step about whether X or Y makes more sense.. Và bạn thậm chí có thể cung cấp cho mô hình một định dạng ví dụ để giúp duy trì đúng hướng, ví dụ:

Using the IRS guidance below, answer the following questions using this format:
(1) For each criterion, determine whether it is met by the vehicle purchase
- {Criterion} Let's think step by step. {explanation} {yes or no, or if the question does not apply then N/A}.
(2) After considering each criterion in turn, phrase the final answer as "Because of {reasons}, the answer is likely {yes or no}."

IRS guidance:
"""
You may be eligible for a federal tax credit under Section 30D if you purchased a car or truck that meets the following criteria:
- Does the vehicle have at least four wheels?
- Does the vehicle weigh less than 14,000 pounds?
- Does the vehicle draw energy from a battery with at least 4 kilowatt hours that may be recharged from an external source?
- Was the vehicle purchased in a year before 2022?
  - If so, has the manufacturer sold less than 200,000 qualifying vehicles? (Tesla and GM have sold more than 200,000 qualifying vehicles.)
- Was the vehicle purchased in a year after 2022?
  - If so, is the vehicle present in the following list of North American-assembled vehicles? (The only electric vehicles assembled in North America are the Audi Q5, BMW 330e, BMW X5, Chevrolet Bolt EUV, Chevrolet Bolt EV, Chrysler Pacifica PHEV, Ford Escape PHEV, Ford F Series, Ford Mustang MACH E, Ford Transit Van, GMC Hummer Pickup, GMC Hummer SUV, Jeep Grand Cherokee PHEV, Jeep Wrangler PHEV, Lincoln Aviator PHEV, Lincoln Corsair Plug-in, Lucid Air, Nissan Leaf, Rivian EDV, Rivian R1S, Rivian R1T, Tesla Model 3, Tesla Model S, Tesla Model X, Tesla Model Y, Volvo S60, BMW 330e, Bolt EV, Cadillac Lyriq, Mercedes EQS SUV, and Nissan Leaf.)
"""

Question: Can I claim a federal tax credit for my Toyota Prius Prime bought in 2021?

Solution:

(1) For each criterion, determine whether it is met by the vehicle purchase
- Does the vehicle have at least four wheels? Let's think step by step.

 The Toyota Prius Prime has four wheels, so the answer is yes.- Does the vehicle weigh less than 14,000 pounds? Let's think step by step. The Toyota Prius Prime weighs less than 14,000 pounds, so the answer is yes.- Does the vehicle draw energy from a battery with at least 4 kilowatt hours that may be recharged from an external source? Let's think step by step. The Toyota Prius Prime has a battery with at least 4 kilowatt hours that may be recharged from an external source, so the answer is yes.- Was the vehicle purchased in a year before 2022? Let's think step by step. The Toyota Prius Prime was purchased in 2021, which is before 2022, so the answer is yes.- Was the vehicle purchased in a year after 2022? N/A- If so, is the vehicle present in the following list of North American-assembled vehicles? N/A(2) After considering each criterion in turn, phrase the final answer as "Because of {reasons}, the answer is likely {yes or no}."Because the Toyota Prius Prime meets all of the criteria for a federal tax credit, the answer is likely yes.

Ví dụ ít ảnh

Phương pháp

Có thể thực hiện việc nhắc nhở mô hình lý giải câu trả lời theo nhiều cách. Một cách là chứng minh bằng một vài ví dụ ('few-shot'), như Jason Wei và Denny Zhou cùng cộng sự đã nghiên cứu từ Google . Sau đây là một ví dụ về lời nhắc chuỗi suy nghĩ few-shot:

 

Thêm các minh họa về chuỗi lý luận do người dán nhãn viết ra:

 

Ý nghĩa

Một lợi thế của phương pháp tiếp cận dựa trên ví dụ ít lần so với Let's think step by stepkỹ thuật này là bạn có thể dễ dàng chỉ định định dạng, độ dài và phong cách lập luận mà bạn muốn mô hình thực hiện trước khi đưa ra câu trả lời cuối cùng. Điều này có thể đặc biệt hữu ích trong trường hợp mô hình ban đầu không lập luận theo đúng cách hoặc độ sâu.

Tinh chỉnh

Phương pháp

Nhìn chung, để đạt được hiệu suất tối đa cho một tác vụ, bạn sẽ cần tinh chỉnh một mô hình tùy chỉnh. Tuy nhiên, tinh chỉnh một mô hình bằng cách sử dụng các giải thích có thể mất hàng nghìn ví dụ giải thích, tốn kém để viết.

Vào năm 2022, Eric Zelikman và Yuhuai Wu cùng cộng sự đã công bố một quy trình thông minh để sử dụng lời nhắc vài lần để tạo ra một tập dữ liệu các giải thích có thể được sử dụng để tinh chỉnh một mô hình. Ý tưởng là sử dụng lời nhắc vài lần để tạo ra các giải thích ứng viên và chỉ giữ lại các giải thích tạo ra câu trả lời đúng. Sau đó, để có thêm lời giải thích cho một số câu trả lời không chính xác, hãy thử lại lời nhắc vài lần nhưng với các câu trả lời đúng được đưa ra như một phần của câu hỏi. Các tác giả gọi quy trình của họ là STaR (Self-taught Reasoner):

Với kỹ thuật này, bạn có thể kết hợp lợi ích của việc tinh chỉnh với lợi ích của việc gợi mở chuỗi suy nghĩ mà không cần phải viết hàng nghìn ví dụ giải thích.

Kết quả

Khi các tác giả áp dụng kỹ thuật này vào tập dữ liệu Hỏi & Đáp Common Sense, họ nhận thấy rằng STaR hoạt động tốt hơn cả phương pháp nhắc nhở theo chuỗi suy nghĩ riêng lẻ (73% > 37%) và phương pháp điều chỉnh riêng lẻ (73% > 60%):

Ý nghĩa

Sử dụng lời nhắc vài lần để mở rộng hoặc sửa đổi một tập dữ liệu tinh chỉnh là một ý tưởng có thể được khái quát hóa vượt ra ngoài việc viết lời giải thích. Ví dụ, nếu bạn có một lượng lớn văn bản phi cấu trúc mà bạn muốn đào tạo, bạn có thể tìm thấy cơ hội sử dụng lời nhắc để trích xuất một tập dữ liệu có cấu trúc từ văn bản phi cấu trúc của mình, sau đó tinh chỉnh một mô hình tùy chỉnh trên tập dữ liệu có cấu trúc đó.

Mở rộng cho việc thúc đẩy chuỗi suy nghĩ

Một số phần mở rộng của chuỗi gợi ý suy nghĩ cũng đã được công bố.

Gợi ý lựa chọn-suy luận

Phương pháp

Được xuất bản bởi Antonia Creswell và cộng sự, một phần mở rộng của kỹ thuật chuỗi suy nghĩ là chia lời nhắc duy nhất để tạo ra lời giải thích và câu trả lời thành các phần nhỏ hơn. Đầu tiên, lời nhắc chọn một tập hợp con các sự kiện có liên quan từ văn bản ('lời nhắc lựa chọn'). Sau đó, lời nhắc thứ hai suy ra kết luận từ các sự kiện đã chọn ('lời nhắc suy luận'). Sau đó, các lời nhắc này được xen kẽ trong một vòng lặp để tạo ra nhiều bước lý luận và cuối cùng đưa ra câu trả lời cuối cùng. Các tác giả minh họa ý tưởng trong hình sau:

Kết quả

Khi áp dụng cho mô hình tham số 7B, các tác giả nhận thấy rằng việc gợi ý suy luận lựa chọn cải thiện đáng kể hiệu suất so với việc gợi ý chuỗi suy nghĩ trên các tác vụ chuẩn bAbi và Proof Writer (cả hai đều yêu cầu trình tự các bước lý luận dài hơn). Hiệu suất tốt nhất mà họ đạt được là kết hợp cả việc gợi ý suy luận lựa chọn với tinh chỉnh.

Suy nghĩ kết thúc

Nghiên cứu về các mô hình ngôn ngữ lớn đang rất sôi động và phát triển nhanh chóng. Các nhà nghiên cứu không chỉ tiếp tục cải thiện các mô hình mà còn tiếp tục cải thiện hiểu biết của chúng ta về cách sử dụng tốt nhất các mô hình. Để nhấn mạnh tốc độ phát triển này, hãy lưu ý rằng tất cả các bài báo được chia sẻ ở trên đều được xuất bản trong vòng 12 tháng qua (khi tôi viết vào tháng 9 năm 2022).

Trong tương lai, hãy mong đợi các mô hình và kỹ thuật tốt hơn sẽ được công bố. Ngay cả khi các kỹ thuật cụ thể ở đây bị lu mờ bởi các phương pháp hay nhất trong tương lai, các nguyên tắc chung đằng sau chúng có thể vẫn là một phần quan trọng trong bộ công cụ của bất kỳ người dùng chuyên gia nào.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt! 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !