0326 239 199
Chat ngay

Trình phát hiện nội dung AI hoạt động như thế nào? Câu trả lời từ một nhà khoa học dữ liệu

Có rất nhiều công cụ hứa hẹn có thể phân biệt nội dung AI với nội dung của con người, nhưng cho đến gần đây, tôi nghĩ chúng không hiệu quả.

Nội dung do AI tạo ra không dễ phát hiện như nội dung "spin" hoặc đạo văn theo kiểu cũ. Hầu hết văn bản do AI tạo ra có thể được coi là bản gốc, theo một nghĩa nào đó—nó không phải là bản sao-dán từ nơi khác trên internet.

Nhưng thực tế là chúng tôi đang xây dựng một công cụ phát hiện nội dung AI tại Ahrefs.

Để hiểu cách thức hoạt động của trình phát hiện nội dung AI, tôi đã phỏng vấn một người thực sự hiểu biết về khoa học và nghiên cứu đằng sau chúng: Yong Keong Yap , một nhà khoa học dữ liệu tại Ahrefs và là thành viên nhóm học máy của chúng tôi.

Tất cả các trình phát hiện nội dung AI đều hoạt động theo cùng một cách cơ bản: chúng tìm kiếm các mẫu hoặc điểm bất thường trong văn bản có vẻ hơi khác so với văn bản do con người viết.

Để làm được điều đó, bạn cần hai thứ: nhiều ví dụ về văn bản do con người viết và văn bản do LLM viết để so sánh, và một mô hình toán học để sử dụng cho việc phân tích.

Có ba cách tiếp cận phổ biến đang được sử dụng:

1.1 Phát hiện thống kê (phương pháp cũ nhưng vẫn hiệu quả)

Những nỗ lực nhằm phát hiện chữ viết do máy tạo ra đã có từ những năm 2000. Một số phương pháp phát hiện cũ này vẫn còn hiệu quả cho đến ngày nay.

Các phương pháp phát hiện thống kê hoạt động bằng cách đếm các mẫu chữ viết cụ thể để phân biệt giữa văn bản do con người viết và văn bản do máy tạo ra, như:

+ Tần suất xuất hiện của từ (tần suất xuất hiện của một số từ nhất định)

+ Tần suất N-gram (tần suất xuất hiện của các chuỗi từ hoặc ký tự cụ thể)

+ Cấu trúc cú pháp (tần suất xuất hiện của các cấu trúc viết cụ thể, như chuỗi Chủ ngữ-Động từ-Tân ngữ (SVO) như “cô ấy ăn táo. ”)

+ Những sắc thái phong cách (như viết ở ngôi thứ nhất, sử dụng phong cách không chính thức, v.v.)

Nếu các mẫu này rất khác so với các mẫu được tìm thấy trong văn bản do con người tạo ra, thì rất có thể bạn đang xem văn bản do máy tạo ra.

Văn bản ví dụTần suất từTần số N-gramCấu trúc cú phápGhi chú về phong cách
“Con mèo ngồi trên tấm thảm. Sau đó, con mèo ngáp.”the: 3
mèo: 2
ngồi: 1
trên: 1
thảm: 1
sau đó: 1
ngáp: 1
Bigrams
“con mèo”: 2
“con mèo ngồi”: 1
“ngồi trên”: 1
“trên”: 1
“tấm thảm”: 1
“sau đó”: 1
“con mèo ngáp”: 1
Bao gồm các cặp SV (Chủ ngữ-Động từ) như “con mèo ngồi” và “con mèo ngáp”.Góc nhìn của người thứ ba; giọng điệu trung lập.

Các phương pháp này rất nhẹ và hiệu quả về mặt tính toán, nhưng chúng có xu hướng bị hỏng khi văn bản bị thao túng (sử dụng những gì các nhà khoa học máy tính gọi là " ví dụ đối nghịch ").

Các phương pháp thống kê có thể trở nên phức tạp hơn bằng cách đào tạo một thuật toán học tập dựa trên các số đếm này (như Naive Bayes, Hồi quy logistic hoặc Cây quyết định) hoặc sử dụng các phương pháp để đếm xác suất từ ​​(được gọi là logit).

1.2 Mạng nơ-ron (phương pháp học sâu thời thượng)

Mạng nơ-ron là hệ thống máy tính mô phỏng một cách lỏng lẻo cách thức hoạt động của não người. Chúng chứa các nơ-ron nhân tạo và thông qua thực hành (được gọi là đào tạo ), các kết nối giữa các nơ-ron sẽ điều chỉnh để đạt được mục tiêu dự định tốt hơn.

Theo cách này, mạng nơ-ron có thể được đào tạo để phát hiện văn bản do các mạng nơ-ron khác tạo ra .

Mạng nơ-ron đã trở thành phương pháp thực tế để phát hiện nội dung AI. Các phương pháp phát hiện thống kê đòi hỏi chuyên môn đặc biệt về chủ đề mục tiêu và ngôn ngữ để hoạt động (những gì các nhà khoa học máy tính gọi là "trích xuất tính năng"). Mạng nơ-ron chỉ cần văn bản và nhãn, và chúng có thể tự học được điều gì là quan trọng và điều gì không quan trọng.

Ngay cả những mô hình nhỏ cũng có thể phát hiện tốt, miễn là chúng được đào tạo bằng đủ dữ liệu (ít nhất là vài nghìn ví dụ, theo tài liệu), khiến chúng trở nên rẻ và không thể bị giả mạo, so với các phương pháp khác.

LLM (như ChatGPT) là mạng nơ-ron, nhưng nếu không có sự tinh chỉnh bổ sung, chúng thường không giỏi trong việc xác định văn bản do AI tạo ra—kể cả khi chính LLM đã tạo ra văn bản đó. Hãy tự mình thử: tạo một số văn bản bằng ChatGPT và trong một cuộc trò chuyện khác, hãy yêu cầu nó xác định xem đó là văn bản do con người hay AI tạo ra.

1.3 Đánh dấu bằng hình mờ (tín hiệu ẩn trong đầu ra LLM)

Watermarking là một cách tiếp cận khác để phát hiện nội dung AI. Ý tưởng là để LLM tạo ra văn bản bao gồm tín hiệu ẩn, xác định nó là do AI tạo ra .

Hãy nghĩ về hình mờ như mực UV trên tiền giấy để dễ dàng phân biệt tiền thật với tiền giả. Những hình mờ này thường tinh tế với mắt thường và không dễ phát hiện hoặc sao chép—trừ khi bạn biết phải tìm gì. Nếu bạn nhặt được một tờ tiền bằng một loại tiền tệ lạ, bạn sẽ khó có thể xác định được tất cả các hình mờ, chứ đừng nói đến việc tái tạo chúng.

Dựa trên tài liệu được Junchao Wu trích dẫn, có ba cách để thêm hình mờ vào văn bản do AI tạo ra:

+ Thêm hình mờ vào các tập dữ liệu mà bạn phát hành (ví dụ: chèn nội dung như “ Ahrefs là vua của vũ trụ!” vào một tập dữ liệu đào tạo nguồn mở. Khi ai đó đào tạo một LLM trên dữ liệu có hình mờ này, hãy mong đợi LLM của họ bắt đầu tôn thờ Ahrefs).

+ Thêm hình mờ vào đầu ra LLM trong quá trình tạo .

+ Thêm hình mờ vào đầu ra LLM sau quá trình tạo .

Phương pháp phát hiện này rõ ràng dựa vào các nhà nghiên cứu và người tạo mô hình lựa chọn đóng dấu mờ cho dữ liệu và đầu ra mô hình của họ. Ví dụ, nếu đầu ra của GPT-4o được đóng dấu mờ, OpenAI có thể dễ dàng sử dụng "đèn UV" tương ứng để xác định xem văn bản được tạo ra có đến từ mô hình của họ hay không.

Nhưng cũng có thể có những hàm ý rộng hơn. Một bài báo rất mới cho rằng việc thêm hình mờ có thể giúp các phương pháp phát hiện mạng nơ-ron hoạt động dễ dàng hơn. Nếu một mô hình được đào tạo trên một lượng nhỏ văn bản có hình mờ, nó sẽ trở nên "phóng xạ" và đầu ra của nó dễ phát hiện hơn khi được tạo ra bằng máy.

Trong quá trình đánh giá tài liệu, nhiều phương pháp có độ chính xác phát hiện khoảng 80% hoặc cao hơn trong một số trường hợp.

Nghe có vẻ khá đáng tin cậy, nhưng có ba vấn đề lớn khiến mức độ chính xác này không thực tế trong nhiều tình huống thực tế.

2.1 Hầu hết các mô hình phát hiện được đào tạo trên các tập dữ liệu rất hẹp

Hầu hết các máy phát hiện AI đều được đào tạo và thử nghiệm trên một loại văn bản cụ thể, như bài báo hoặc nội dung mạng xã hội.

Điều đó có nghĩa là nếu bạn muốn kiểm tra một bài đăng trên blog tiếp thị và bạn sử dụng một máy dò AI được đào tạo về nội dung tiếp thị, thì có khả năng là nó khá chính xác. Nhưng nếu máy dò được đào tạo về nội dung tin tức hoặc tiểu thuyết sáng tạo, thì kết quả sẽ kém tin cậy hơn nhiều.

Yong Keong Yap là người Singapore và đã chia sẻ ví dụ về việc trò chuyện với ChatGPT bằng tiếng Singlish , một phiên bản tiếng Anh của Singapore kết hợp các yếu tố của các ngôn ngữ khác, như tiếng Mã Lai và tiếng Trung

Khi thử nghiệm văn bản Singlish trên mô hình phát hiện được đào tạo chủ yếu trên các bài báo, nó không thành công, mặc dù hoạt động tốt với các loại văn bản tiếng Anh khác

2.2 Họ đấu tranh với việc phát hiện một phần

Hầu như tất cả các chuẩn mực phát hiện AI và bộ dữ liệu đều tập trung vào phân loại trình tự : nghĩa là phát hiện xem toàn bộ văn bản có phải do máy tạo ra hay không.

Nhưng nhiều ứng dụng thực tế của văn bản AI bao gồm sự kết hợp giữa văn bản do AI tạo ra và văn bản do con người viết (ví dụ, sử dụng trình tạo AI để hỗ trợ viết hoặc chỉnh sửa bài đăng trên blog có một phần do con người viết).

Loại phát hiện một phần này (được gọi là phân loại khoảng hoặc phân loại mã thông báo ) là một vấn đề khó giải quyết hơn và ít được chú ý trong các tài liệu mở. Các mô hình phát hiện AI hiện tại không xử lý tốt cài đặt này.

2.3 Họ dễ bị tổn thương trước các công cụ nhân bản

Các công cụ nhân bản hóa hoạt động bằng cách phá vỡ các mẫu mà các máy dò AI tìm kiếm. Nhìn chung, LLM viết trôi chảy và lịch sự. Nếu bạn cố tình thêm lỗi đánh máy, lỗi ngữ pháp hoặc thậm chí là nội dung gây thù hận vào văn bản được tạo, bạn thường có thể làm giảm độ chính xác của các máy dò AI.

Những ví dụ này là những "thao túng đối nghịch" đơn giản được thiết kế để phá vỡ các máy dò AI và chúng thường rõ ràng ngay cả với mắt người. Nhưng những người nhân bản hóa tinh vi có thể đi xa hơn, sử dụng một LLM khác được tinh chỉnh cụ thể trong một vòng lặp với một máy dò AI đã biết. Mục tiêu của họ là duy trì đầu ra văn bản chất lượng cao trong khi phá vỡ các dự đoán của máy dò.

Những điều này có thể khiến văn bản do AI tạo ra khó bị phát hiện hơn, miễn là công cụ nhân bản hóa có quyền truy cập vào các máy dò mà nó muốn phá vỡ (để đào tạo cụ thể để đánh bại chúng). Các máy nhân bản hóa có thể thất bại thảm hại trước các máy dò mới, chưa biết đến.

Tóm lại, các trình phát hiện nội dung AI có thể rất chính xác trong những trường hợp phù hợp. Để có được kết quả hữu ích từ chúng, điều quan trọng là phải tuân theo một số nguyên tắc hướng dẫn sau:

+ Cố gắng tìm hiểu càng nhiều càng tốt về dữ liệu đào tạo của máy dò và sử dụng các mô hình được đào tạo trên vật liệu tương tự như vật liệu bạn muốn thử nghiệm.

+ Kiểm tra nhiều tài liệu từ cùng một tác giả. Bài luận của học sinh được đánh dấu là do AI tạo ra? Chạy tất cả các bài tập trước đây của họ qua cùng một công cụ để hiểu rõ hơn về tỷ lệ cơ sở của họ.

+ Không bao giờ sử dụng trình phát hiện nội dung AI để đưa ra quyết định ảnh hưởng đến sự nghiệp hoặc vị thế học vấn của ai đó. Luôn sử dụng kết quả của chúng kết hợp với các hình thức bằng chứng khác.

+ Sử dụng với một liều lượng hoài nghi vừa phải. Không có máy dò AI nào chính xác 100%. Sẽ luôn có kết quả dương tính giả.

4. Suy nghĩ cuối cùng

Kể từ khi quả bom hạt nhân đầu tiên phát nổ vào những năm 1940, mọi khối thép được nấu chảy trên khắp thế giới đều bị ô nhiễm bởi bụi phóng xạ hạt nhân.

Thép được sản xuất trước kỷ nguyên hạt nhân được gọi là “ thép nền thấp ”, và nó khá quan trọng nếu bạn đang chế tạo máy đếm Geiger hoặc máy dò hạt. Nhưng loại thép không bị ô nhiễm này đang ngày càng trở nên hiếm hơn. Nguồn chính hiện nay là các xác tàu đắm cũ. Chẳng mấy chốc, tất cả có thể biến mất.

Phép loại suy này có liên quan đến việc phát hiện nội dung AI. Các phương pháp ngày nay phụ thuộc rất nhiều vào việc tiếp cận nguồn nội dung hiện đại do con người viết. Nhưng nguồn này đang ngày càng thu hẹp.

Khi AI được nhúng vào phương tiện truyền thông xã hội, trình xử lý văn bản và hộp thư đến email, và các mô hình mới được đào tạo trên dữ liệu bao gồm văn bản do AI tạo ra, thì thật dễ dàng để tưởng tượng ra một thế giới mà hầu hết nội dung đều bị "nhiễm bẩn" bởi tài liệu do AI tạo ra.

Trong thế giới đó, có thể không có nhiều ý nghĩa khi nghĩ về phát hiện AI—mọi thứ sẽ là AI, ở mức độ lớn hơn hoặc nhỏ hơn. Nhưng hiện tại, ít nhất bạn có thể sử dụng các trình phát hiện nội dung AI được trang bị kiến ​​thức về điểm mạnh và điểm yếu của chúng.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !