Có thể thu thập thông tin của tôi? Trình thu thập thông tin trang web hoạt động như thế nào

Bạn có thể đã từng nghe đến việc thu thập dữ liệu trang web trước đây — bạn thậm chí có thể có một ý niệm mơ hồ về nó — nhưng bạn có biết tại sao nó lại quan trọng không, hoặc điều gì phân biệt nó với việc thu thập dữ liệu web không? (có, có sự khác biệt!)

Các công cụ tìm kiếm ngày càng khắt khe hơn khi xét đến chất lượng của các trang web được phép hiển thị trong kết quả tìm kiếm.

Nếu bạn không nắm được những điều cơ bản về tối ưu hóa cho trình thu thập thông tin trên web (và người dùng cuối cùng), lưu lượng truy cập tự nhiên của bạn có thể phải trả giá.

Một trình thu thập thông tin trang web tốt có thể chỉ cho bạn cách bảo vệ và thậm chí nâng cao khả năng hiển thị của trang web.

Sau đây là những điều bạn cần biết về cả trình thu thập dữ liệu web và trình thu thập dữ liệu trang web.

Trình thu thập dữ liệu web là một chương trình phần mềm hoặc tập lệnh tự động quét internet, phân tích và lập chỉ mục các trang web.

Còn được gọi là trình thu thập dữ liệu web hoặc spiderbot, trình thu thập dữ liệu web đánh giá nội dung của một trang để quyết định cách ưu tiên nội dung đó trong chỉ mục của chúng.

Googlebot , trình thu thập dữ liệu web của Google, duyệt web một cách tỉ mỉ, theo dõi các liên kết từ trang này sang trang khác, thu thập dữ liệu và xử lý nội dung để đưa vào công cụ tìm kiếm của Google.

1.1 Trình thu thập dữ liệu web tác động đến SEO như thế nào?

Trình thu thập dữ liệu web sẽ phân tích trang của bạn và quyết định mức độ có thể lập chỉ mục hoặc xếp hạng của trang, từ đó quyết định khả năng thu hút lưu lượng truy cập tự nhiên của bạn.

Nếu bạn muốn được phát hiện trong kết quả tìm kiếm, thì điều quan trọng là bạn phải chuẩn bị nội dung của mình để được thu thập và lập chỉ mục.

Trình thu thập dữ liệu có nhiều hình dạng và kích cỡ khác nhau. Bạn có trình thu thập dữ liệu web như Googlebot và Bingbot—chúng hỗ trợ các công cụ tìm kiếm lớn, thu thập hàng tỷ trang 24/7 để giữ cho kết quả tìm kiếm luôn mới.

Sau đó, bạn sẽ có các trình thu thập thông tin chuyên biệt tập trung vào các khu vực được chọn - hãy nghĩ đến các trình thu thập thông tin trang web để kiểm tra từng trang web riêng lẻ nhằm phát hiện các vấn đề kỹ thuật, các trình thu thập thông tin học thuật để tìm kiếm các bài báo nghiên cứu và - đối với những người sợ mã (như tôi!) - có các trình thu thập dữ liệu web trực quan cung cấp cho bạn giao diện trỏ và nhấp để lấy dữ liệu bạn cần.

Dưới đây là các loại trình thu thập dữ liệu web chính với các ví dụ và ứng dụng thực tế. Trong bài viết này, tôi sẽ chỉ tập trung vào trình thu thập dữ liệu web và trang web.

Loại trình thu thập thông tin	Ví dụ bot	Họ thực sự làm gì
Trình thu thập dữ liệu web	Googlebot, Bingbot	Quét hàng tỷ trang web để: • Xây dựng chỉ mục tìm kiếm • Tìm nội dung mới/cập nhật • Theo dõi tình trạng trang web • Đánh giá chất lượng nội dung để xếp hạng
Trình thu thập dữ liệu trang web	Trình thu thập thông tin Ahrefs Site Audit, Majestic	Phân tích các trang web cho SEO bằng cách: • Theo dõi các liên kết ngược • Lập bản đồ cấu trúc trang web • Theo dõi thứ hạng từ khóa • Xác định các vấn đề SEO kỹ thuật
Trình thu thập thông tin học thuật	CiteSeerX, Google Học thuật	Thu thập nghiên cứu học thuật để: • Xây dựng mạng lưới trích dẫn • Xác định các ấn phẩm mới • Tạo cơ sở dữ liệu có thể tìm kiếm • Theo dõi xu hướng nghiên cứu
Trình thu thập ngữ nghĩa	Apache Nutch, OpenCalais	Xử lý nội dung web để: • Hiểu ý nghĩa nội dung và mối quan hệ chủ đề • Xây dựng biểu đồ kiến thức • Phân loại nội dung theo chủ đề • Xác định các thực thể (người, địa điểm, tổ chức)
Trình thu thập dữ liệu nguồn mở	Scrapy, Heritrix	Xây dựng thu thập thông tin tùy chỉnh để: • Theo dõi giá của đối thủ cạnh tranh • Theo dõi hàng tồn kho sản phẩm • Thu thập thông tin thị trường • Lưu trữ trang web
Trình thu thập dữ liệu web trực quan	Bạch tuộc, WebHarvy	Giúp người dùng không thích mã hóa trích xuất: • Thông tin sản phẩm từ các trang web thương mại điện tử • Danh sách bất động sản • Thông tin liên hệ từ các danh bạ • Dữ liệu thời tiết

Có khoảng bảy giai đoạn để thu thập dữ liệu web:

3.1 Khám phá URL

Khi bạn xuất bản trang của mình (ví dụ như lên sơ đồ trang web), trình thu thập dữ liệu web sẽ phát hiện ra trang đó và sử dụng nó làm URL 'hạt giống'. Giống như hạt giống trong chu kỳ nảy mầm, các URL khởi đầu này cho phép vòng thu thập dữ liệu và các vòng thu thập dữ liệu tiếp theo bắt đầu.

3.2 Bò

Sau khi phát hiện URL, trang của bạn sẽ được lên lịch và sau đó được thu thập. Nội dung như thẻ meta, hình ảnh, liên kết và dữ liệu có cấu trúc được tải xuống máy chủ của công cụ tìm kiếm, nơi chúng chờ phân tích cú pháp và lập chỉ mục.

3.3 Phân tích cú pháp

Phân tích cú pháp về cơ bản có nghĩa là phân tích . Bot thu thập dữ liệu trích xuất dữ liệu vừa thu thập được để xác định cách lập chỉ mục và xếp hạng trang.

3.4 Vòng lặp khám phá URL

Cũng trong giai đoạn phân tích cú pháp, nhưng xứng đáng có phần riêng, là vòng lặp khám phá URL. Đây là lúc các liên kết mới được phát hiện (bao gồm các liên kết được phát hiện thông qua chuyển hướng) được thêm vào hàng đợi URL để trình thu thập thông tin truy cập. Về cơ bản, đây là các URL 'hạt giống' mới và các bước 1–3 được lặp lại như một phần của 'vòng lặp khám phá URL'.

3.5 Lập chỉ mục

Trong khi các URL mới đang được khám phá, URL gốc sẽ được lập chỉ mục. Lập chỉ mục là khi các công cụ tìm kiếm lưu trữ dữ liệu được thu thập từ các trang web. Nó cho phép chúng nhanh chóng truy xuất các kết quả có liên quan cho các truy vấn của người dùng.

3.6 Xếp hạng

Các trang được lập chỉ mục được xếp hạng trong các công cụ tìm kiếm dựa trên chất lượng, mức độ liên quan đến truy vấn tìm kiếm và khả năng đáp ứng một số yếu tố xếp hạng khác. Các trang này sau đó được phục vụ cho người dùng khi họ thực hiện tìm kiếm.

3.7 Kết thúc bò

Cuối cùng, toàn bộ quá trình thu thập dữ liệu (bao gồm vòng lặp khám phá lại URL) sẽ kết thúc dựa trên các yếu tố như thời gian phân bổ, số trang đã thu thập dữ liệu, độ sâu của các liên kết được theo dõi, v.v.

3.8 Xem lại

Trình thu thập thông tin sẽ định kỳ truy cập lại trang để kiểm tra các bản cập nhật, nội dung mới hoặc thay đổi về cấu trúc.

Như bạn có thể đoán, số lượng URL được phát hiện và thu thập trong quá trình này tăng theo cấp số nhân chỉ sau vài bước nhảy.

Trình thu thập dữ liệu web của công cụ tìm kiếm là tự động, nghĩa là bạn không thể kích hoạt chúng để thu thập dữ liệu hoặc bật/tắt chúng theo ý muốn.

Tuy nhiên, bạn có thể giúp trình thu thập thông tin bằng cách:

4.1 Sơ đồ trang web XML

Sơ đồ trang web XML là tệp liệt kê tất cả các trang quan trọng trên trang web của bạn để giúp công cụ tìm kiếm phát hiện và lập chỉ mục nội dung của bạn một cách chính xác.

4.2 Công cụ kiểm tra URL của Google

Bạn có thể yêu cầu Google xem xét thu thập lại nội dung trang web của bạn thông qua công cụ kiểm tra URL trong Google Search Console. Bạn có thể nhận được thông báo trong GSC nếu Google biết về URL của bạn nhưng vẫn chưa thu thập hoặc lập chỉ mục. Nếu vậy, hãy tìm hiểu cách khắc phục lỗi "Đã phát hiện — hiện chưa lập chỉ mục" .

4.3 Chỉ mụcBây giờ

Thay vì chờ bot thu thập lại dữ liệu và lập chỉ mục nội dung của bạn, bạn có thể sử dụng IndexNow để tự động ping các công cụ tìm kiếm như Bing, Yandex, Naver, Seznam.cz và Yep bất cứ khi nào bạn:

+ Thêm trang mới

+ Cập nhật nội dung hiện có

+ Xóa các trang lỗi thời

+ Thực hiện chuyển hướng

Bạn có thể thiết lập chức năng gửi IndexNow tự động thông qua Ahrefs Site Audit.

Quyết định thu thập thông tin của công cụ tìm kiếm mang tính động và hơi khó hiểu.

Mặc dù chúng tôi không biết tiêu chí chính thức mà Google sử dụng để xác định thời điểm hoặc tần suất thu thập nội dung, nhưng chúng tôi đã suy ra ba lĩnh vực quan trọng nhất.

Thông tin này dựa trên thông tin chi tiết do Google cung cấp trong tài liệu hỗ trợ và phỏng vấn đại diện.

5.1 Ưu tiên chất lượng

Google PageRank đánh giá số lượng và chất lượng của các liên kết đến một trang, coi chúng như “phiếu bầu” về tầm quan trọng.

Các trang có liên kết chất lượng được coi là quan trọng hơn và được xếp hạng cao hơn trong kết quả tìm kiếm.

PageRank là một phần cơ bản của thuật toán Google. Do đó, có thể hiểu rằng chất lượng liên kết và nội dung của bạn đóng vai trò lớn trong cách trang web của bạn được thu thập và lập chỉ mục.

Để đánh giá chất lượng trang web của bạn, Google sẽ xem xét các yếu tố như:

+ Liên kết nội bộ

+ Liên kết ngoài

+ Trải nghiệm trang

Để đánh giá các trang trên trang web của bạn có nhiều liên kết nhất, hãy xem báo cáo Tốt nhất theo liên kết trong Ahrefs.

Hãy chú ý đến cột “Lần đầu tiên nhìn thấy”, “Kiểm tra lần cuối”, cho biết những trang nào được thu thập dữ liệu nhiều nhất và khi nào.

5.2 Giữ mọi thứ luôn mới mẻ

Theo Nhà phân tích tìm kiếm cấp cao của Google, John Mueller …

Các công cụ tìm kiếm thu thập lại URL ở nhiều tốc độ khác nhau, đôi khi là nhiều lần trong ngày, đôi khi là vài tháng một lần.
John Mueller, Tìm kiếm Advocate, Google

Nhưng nếu bạn thường xuyên cập nhật nội dung, bạn sẽ thấy trình thu thập thông tin ghé thăm thường xuyên hơn.

Các công cụ tìm kiếm như Google muốn cung cấp thông tin chính xác và mới nhất để duy trì tính cạnh tranh và sự phù hợp, vì vậy việc cập nhật nội dung của bạn giống như việc đưa ra một củ cà rốt trên một cây gậy.

Bạn có thể kiểm tra tốc độ xử lý các bản cập nhật của Google bằng cách kiểm tra số liệu thống kê thu thập thông tin trong Google Search Console .

Khi bạn ở đó, hãy xem sự cố thu thập dữ liệu "Theo mục đích" (tức là phần trăm chia tách các trang được làm mới so với các trang mới được phát hiện). Điều này cũng sẽ giúp bạn tìm ra tần suất bạn khuyến khích trình thu thập dữ liệu web truy cập lại trang web của mình.

Để tìm những trang cụ thể cần cập nhật trên trang web của bạn, hãy vào báo cáo Top Pages trong Ahrefs Site Explorer, sau đó:

+ Đặt bộ lọc lưu lượng truy cập thành “Đã từ chối”

+ Đặt ngày so sánh vào năm ngoái hoặc hai năm trước

+ Xem trạng thái Thay đổi Nội dung và cập nhật các trang chỉ có những thay đổi nhỏ

Top Pages cho bạn biết nội dung trên trang web của bạn đang thu hút nhiều lưu lượng truy cập tự nhiên nhất. Đẩy các bản cập nhật vào các trang này sẽ khuyến khích trình thu thập thông tin truy cập vào nội dung tốt nhất của bạn thường xuyên hơn và (hy vọng) thúc đẩy bất kỳ lưu lượng truy cập nào đang giảm.

5.3 Tinh chỉnh cấu trúc trang web của bạn

Cung cấp cấu trúc trang web rõ ràng thông qua sơ đồ trang web hợp lý và sao lưu bằng các liên kết nội bộ có liên quan sẽ giúp trình thu thập thông tin:

+ Điều hướng trang web của bạn tốt hơn

+ Hiểu được thứ bậc của nó

+ Lập chỉ mục và xếp hạng nội dung có giá trị nhất của bạn

Kết hợp lại, những yếu tố này cũng sẽ làm hài lòng người dùng vì chúng hỗ trợ điều hướng dễ dàng, giảm tỷ lệ thoát và tăng mức độ tương tác.

Dưới đây là một số yếu tố khác có khả năng ảnh hưởng đến cách trang web của bạn được phát hiện và ưu tiên khi thu thập thông tin

Các công cụ thu thập dữ liệu web như Google thu thập toàn bộ dữ liệu trên Internet và bạn không thể kiểm soát được những trang web chúng truy cập hoặc tần suất chúng truy cập.

Nhưng điều bạn có thể làm là sử dụng trình thu thập thông tin của trang web , giống như bot riêng của bạn.

Yêu cầu họ thu thập dữ liệu trang web của bạn để tìm và khắc phục các sự cố SEO quan trọng hoặc nghiên cứu trang web của đối thủ cạnh tranh và biến điểm yếu lớn nhất của họ thành cơ hội tiếp theo của bạn.

Trình thu thập dữ liệu trang web về cơ bản mô phỏng hiệu suất tìm kiếm. Chúng giúp bạn hiểu cách trình thu thập dữ liệu web của công cụ tìm kiếm có thể diễn giải các trang của bạn, dựa trên:

+ Kết cấu

+ Nội dung

+ Siêu dữ liệu

+ Tốc độ tải trang

+ Lỗi

+ Vân vân

6.1 Ví dụ: Kiểm toán trang web Ahrefs

Trình thu thập thông tin Ahrefs Site Audit hỗ trợ các công cụ: RankTracker, Projects và công cụ thu thập thông tin trang web chính của Ahrefs: Site Audit.

Site Audit giúp các chuyên gia SEO:

+ Phân tích hơn 170 vấn đề SEO kỹ thuật

+ Thực hiện thu thập dữ liệu theo yêu cầu, với dữ liệu hiệu suất trang web trực tiếp

+ Đánh giá tới 170k URL một phút

+ Khắc phục sự cố, duy trì và cải thiện khả năng hiển thị của họ trên các công cụ tìm kiếm

Từ việc khám phá URL cho đến việc truy cập lại, trình thu thập thông tin trang web hoạt động rất giống với trình thu thập thông tin web – chỉ khác là thay vì lập chỉ mục và xếp hạng trang của bạn trên SERP, chúng sẽ lưu trữ và phân tích trang trong cơ sở dữ liệu riêng của chúng.

Bạn có thể thu thập dữ liệu trang web của mình cục bộ hoặc từ xa. Các trình thu thập dữ liệu trên máy tính để bàn như ScreamingFrog cho phép bạn tải xuống và tùy chỉnh dữ liệu thu thập trên trang web của mình, trong khi các công cụ dựa trên đám mây như Ahrefs Site Audit thực hiện thu thập dữ liệu mà không cần sử dụng tài nguyên máy tính của bạn – giúp bạn hợp tác để sửa lỗi và tối ưu hóa trang web.

Nếu bạn muốn quét toàn bộ trang web theo thời gian thực để phát hiện các vấn đề về SEO kỹ thuật, hãy cấu hình thu thập thông tin trong Site Audit.

Nó sẽ cung cấp cho bạn bảng phân tích dữ liệu trực quan, điểm số tình trạng trang web và các đề xuất sửa lỗi chi tiết để giúp bạn hiểu cách công cụ tìm kiếm diễn giải trang web của bạn.

7.1 Thiết lập thu thập thông tin của bạn

Điều hướng đến tab Kiểm toán trang web và chọn một dự án hiện có hoặc thiết lập một dự án .

Dự án là bất kỳ tên miền, tên miền phụ hoặc URL nào bạn muốn theo dõi theo thời gian.

Sau khi cấu hình cài đặt thu thập thông tin – bao gồm lịch trình thu thập thông tin và nguồn URL – bạn có thể bắt đầu kiểm tra và sẽ nhận được thông báo ngay khi hoàn tất.

Sau đây là một số điều bạn có thể làm ngay

7.2 Chẩn đoán lỗi hàng đầu

Tổng quan về Các vấn đề hàng đầu trong Site Audit cho bạn biết các lỗi, cảnh báo và thông báo cấp bách nhất dựa trên số lượng URL bị ảnh hưởng.

Thực hiện những điều này như một phần trong lộ trình SEO của bạn sẽ giúp bạn:

- Lỗi tại chỗ (biểu tượng màu đỏ) ảnh hưởng đến việc thu thập thông tin – ví dụ

+ Mã trạng thái HTTP/lỗi máy khách

+ Liên kết bị hỏng

+ Các vấn đề chính thống

- Tối ưu hóa nội dung và thứ hạng của bạn dựa trên cảnh báo (màu vàng) – ví dụ

+ Thiếu văn bản thay thế

+ Liên kết đến chuyển hướng

+ Mô tả meta quá dài

- Duy trì khả năng hiển thị ổn định bằng các thông báo (biểu tượng màu xanh) – ví dụ

+ Lượng truy cập tự nhiên giảm

+ Nhiều H1

+ Các trang có thể lập chỉ mục không có trong sơ đồ trang web

- Vấn đề lọc

Bạn cũng có thể ưu tiên sửa lỗi bằng cách sử dụng bộ lọc.

Giả sử bạn có hàng nghìn trang thiếu mô tả meta. Hãy làm cho nhiệm vụ dễ quản lý và có tác động hơn bằng cách nhắm mục tiêu vào các trang có lưu lượng truy cập cao trước.

+ Đi đến báo cáo Page Explorer trong Site Audit

+ Chọn danh sách thả xuống bộ lọc nâng cao

+ Đặt bộ lọc trang nội bộ

+ Chọn toán tử 'Và'

+ Chọn 'Mô tả meta' và 'Không tồn tại'

+ Chọn 'Lưu lượng truy cập tự nhiên > 100'

- Thu thập các phần quan trọng nhất của trang web của bạn

Phân đoạn và tập trung vào các trang quan trọng nhất trên trang web của bạn (ví dụ: thư mục con hoặc tên miền phụ) bằng hơn 200 bộ lọc của Site Audit – cho dù đó là blog, cửa hàng thương mại điện tử hay thậm chí là các trang có lượng truy cập vượt ngưỡng nhất định.

7.3 Đẩy nhanh việc sửa chữa

Nếu bạn không có kinh nghiệm viết mã, thì việc thu thập dữ liệu trang web và triển khai bản sửa lỗi có thể khiến bạn lo lắng.

Nếu bạn có bộ phận hỗ trợ phát triển, các vấn đề sẽ dễ khắc phục hơn, nhưng sau đó bạn sẽ phải mặc cả thời gian của người khác.

Chúng tôi có một tính năng mới giúp bạn giải quyết những vấn đề đau đầu này. Bản vá là bản sửa lỗi mà bạn có thể tự động thực hiện trong Site Audit.

Thay đổi tiêu đề, thiếu mô tả meta, liên kết bị hỏng trên toàn trang web – khi gặp phải những lỗi như thế này, bạn có thể nhấn “Vá lỗi” để đăng bản sửa lỗi trực tiếp lên trang web của mình mà không cần phải làm phiền nhà phát triển.

Và nếu bạn không chắc chắn về bất kỳ điều gì, bạn có thể khôi phục bản vá lỗi bất kỳ lúc nào.

7.4 Cơ hội tối ưu hóa tại chỗ

Kiểm tra trang web của bạn bằng trình thu thập thông tin trang web không chỉ nhằm mục đích phát hiện cơ hội mà còn nhằm mục đích sửa lỗi.

- Cải thiện liên kết nội bộ

Báo cáo Cơ hội liên kết nội bộ trong Site Audit hiển thị cho bạn các đề xuất liên kết nội bộ có liên quan bằng cách lấy 10 từ khóa hàng đầu (theo lưu lượng truy cập) cho mỗi trang được thu thập thông tin, sau đó tìm kiếm các đề cập đến chúng trên các trang được thu thập thông tin khác của bạn.

Các trang 'Nguồn' là các trang bạn nên liên kết đến và các trang 'Mục tiêu' là các trang bạn nên liên kết đến .

Càng có nhiều kết nối chất lượng cao giữa các nội dung thì Googlebot sẽ càng dễ dàng thu thập dữ liệu trên trang web của bạn.

8. Suy nghĩ cuối cùng

Hiểu về việc thu thập dữ liệu trang web không chỉ là một mẹo SEO – đó là kiến thức nền tảng ảnh hưởng trực tiếp đến lưu lượng truy cập và ROI của bạn.

Biết cách trình thu thập thông tin hoạt động có nghĩa là biết cách các công cụ tìm kiếm "xem" trang web của bạn và đó là một nửa thành công khi nói đến thứ hạng.