Crawl là gì? 5 lỗi khiến Google không thể crawl data website đúng cách

Ngày đăng: 14/12/2021
Tác giả: Vũ Việt Hoàng
Crawl là gì? 5 lỗi khiến Google không thể crawl data website đúng cách
Để người khác có thể tìm thấy trang web của bạn, trình thu thập thông tin của công cụ tìm kiếm hay còn gọi là crawler sẽ cử các bot thu thập dữ liệu trang web, crawl data, tìm kiếm văn bản và liên kết và cập nhật chỉ mục tìm kiếm của chúng. Từ đó, nội dung của bạn sẽ được Google hiển thị trong kết quả tìm kiếm liên quan nhất. Bài viết của Ori Agency nêu bật các khía cạnh quan trọng về crawl là gì, tầm quan trọng với SEO, cách thức hoạt động, cách giúp Google thu thập thông tin website đúng cách,...

I - Khái niệm Crawl

1. Crawl là gì? 

Crawl là gì? Crawl là thu thập dữ liệu trên một con đường còn trong SEO thì Crawl có nghĩa là theo dõi các loai liên kết và thu thâp dữ liệu trên website. Nội dung có thể khác nhau, có thể là trang web, hình ảnh, video, PDF, v.v nhưng bất kể định dạng nào, nội dung đều được khám phá bởi các liên kết.

2. Crawler là gì? Ứng dụng của Web Crawler

Crawler là trình thu thập thông tin web, trình thu thập dữ liệu tự động trên web. Các công cụ tìm kiếm chính đều có một chương trình như vậy, còn được gọi là "con bot". Trình thu thập thông tin thường được lập trình để truy cập các trang web hoặc các trang cụ thể, crawl dữ liệu và lập chỉ mục một cách chọn lọc. Điều này cho phép các công cụ tìm kiếm cung cấp các kết quả có liên quan để đáp ứng các truy vấn tìm kiếm của người dùng, tạo danh sách các trang web hiển thị sau khi người dùng nhập tìm kiếm vào Google.
Website Crawler cũng được sử dụng để mô tả việc Scrap web, kéo dữ liệu có cấu trúc từ các trang web.
 
crawl-la-gi

3. Phân biệt Crawl và Scrap

Scrap là khi một bot tải xuống nội dung trên một trang web mà không được phép, thường sử dụng nội dung đó cho mục đích xấu.
Scrap thường được nhắm mục tiêu nhiều hơn Crawl data. Web Scraper có thể chỉ sau các trang cụ thể hoặc các trang web cụ thể, trong khi Crawler website sẽ tiếp tục theo dõi các liên kết và thu thập thông tin các trang liên tục.
Scrap có thể được thực hiện thủ công bằng tay. Crawler chỉ có thể được thực hiện với tác nhân thu thập thông tin như Google Bot.
Về vấn đề trùng lặp, Scraper không phải lúc nào cũng cần loại bỏ trùng lặp vì nó có thể được thực hiện theo cách thủ công. Còn với Web Crawler, rất nhiều nội dung trực tuyến bị trùng lặp và để không thu thập thông tin trùng lặp, dư thừa, Crawler sẽ lọc ra những dữ liệu đó.
 
seo-tong-the

II - Crawler ảnh hưởng đến SEO như thế nào?

SEO là tối ưu hóa công cụ tìm kiếm, và để đạt hiệu quả SEO, trước hết nội dung website của bạn cần được lập chỉ mục tìm kiếm để hiển thị trong kết quả của công cụ tìm kiếm.
Theo thống kê, tổng lượng dữ liệu trên web đã tăng lên. Tuy nhiên, gần 90% dữ liệu là không có cấu trúc và thu thập thông tin web là rất quan trọng để lập chỉ mục tất cả các dữ liệu phi cấu trúc này cho các công cụ tìm kiếm để cung cấp các kết quả có liên quan.
 
crawl-la-gi
Ngoài Crawler giúp tối ưu cấu trúc website thì Topic cluster cũng giúp tối ưu lại các trang và liên kết lại với nhau. Để hiểu rõ hơn về nó thì hãy cùng nhau tìm hiểu về Topic cluster là gì và cách thức hoạt động nhé!

III - Trình thu thập thông tin (Crawler) hoạt động như thế nào?

Về nguyên tắc, một trình thu thập thông tin giống như một thủ thư. Nó tìm kiếm thông tin trên Web, đánh giá và phân loại danh mục để để bất kỳ ai ghé thăm đều có thể nhanh chóng và dễ dàng tìm thấy thông tin họ cần. 
 
crawl-la-gi
 
Crawl là một quy trình trong cách thức hoạt động của Google:
  • Thu thập thông tin: Tìm kiếm nội dung trên Internet, xem qua mã / nội dung cho từng URL mà bot tìm thấy

  • Lập chỉ mục: Lưu trữ và sắp xếp nội dung được tìm thấy trong quá trình thu thập thông tin. Khi một trang đã có trong chỉ mục, nó sẽ được hiển thị do kết quả của các truy vấn có liên quan

  • Xếp hạng: Cung cấp các phần nội dung sẽ trả lời tốt nhất cho truy vấn của người tìm kiếm, có nghĩa là các kết quả được sắp xếp theo thứ tự phù hợp nhất đến ít liên quan nhất

Trình thu thập dữ liệu web bắt đầu quá trình thu thập thông tin bằng cách tải xuống tệp robot.txt của trang web. Tệp bao gồm các sơ đồ trang liệt kê các URL mà công cụ tìm kiếm có thể thu thập thông tin. Khi trình thu thập dữ liệu web bắt đầu thu thập thông tin một trang, chúng sẽ khám phá các trang mới thông qua các liên kết. Những trình thu thập thông tin này thêm các URL mới được phát hiện vào hàng đợi thu thập thông tin để chúng có thể được thu thập thông tin sau này. Nhờ các kỹ thuật này, trình thu thập dữ liệu web có thể lập chỉ mục mọi trang được kết nối với những trang khác.
Vì các trang được cập nhật và thay đổi thường xuyên, nên điều quan trọng là phải xác định tần suất các công cụ tìm kiếm sẽ thu thập thông tin chúng. Trình thu thập thông tin của công cụ tìm kiếm sử dụng một số thuật toán để quyết định các yếu tố như tần suất một trang hiện có nên được thu thập lại thông tin và số lượng trang trên một trang web sẽ được lập chỉ mục.

IV - Crawl data: Công cụ tìm kiếm có thể tìm thấy các trang của bạn không?

Một cách để kiểm tra các trang được lập chỉ mục của bạn: Truy cập Google và nhập "site: yourdomain.com". Điều này sẽ trả về kết quả mà Google có trong chỉ mục của nó cho trang web được chỉ định.
 

crawl-la-gi
 
Để có kết quả chính xác hơn, hãy theo dõi và sử dụng báo cáo Trạng thái lập chỉ mục trong Google Search Console. Với công cụ này, bạn có thể gửi sơ đồ trang web và theo dõi số lượng trang đã gửi được thêm vào chỉ mục của Google.
Nếu bạn không hiển thị ở bất kỳ đâu trong kết quả tìm kiếm, có một số lý do có thể xảy ra:
  • Trang web của bạn là thương hiệu mới và chưa được thu thập thông tin.

  • Trang web của bạn không được liên kết đến từ bất kỳ trang web bên ngoài nào.

  • Điều hướng trang web của bạn khiến rô bốt khó thu thập dữ liệu trang web một cách hiệu quả.

  • Trang web của bạn chứa một số mã cơ bản được gọi là chỉ thị trình thu thập thông tin đang chặn các công cụ tìm kiếm.

  • Trang web của bạn đã bị Google phạt vì các chiến thuật spam.

V - Một số lỗi khiến Googlebot không thể Crawl trang web của bạn

1. Nội dung ẩn sau các biểu mẫu đăng nhập

Nếu bạn yêu cầu người dùng đăng nhập, điền vào biểu mẫu hoặc trả lời khảo sát trước khi truy cập nội dung nhất định, các công cụ tìm kiếm sẽ không nhìn thấy các trang được bảo vệ đó.

2. Sử dụng các biểu mẫu phương tiện không phải văn bản (hình ảnh, video, GIF, v.v.) để hiển thị văn bản mà bạn muốn được lập chỉ mục

Mặc dù các công cụ tìm kiếm ngày càng nhận ra hình ảnh tốt hơn, nhưng không có gì đảm bảo rằng chúng sẽ có thể đọc và hiểu nó. Tốt nhất là thêm văn bản trong phần đánh dấu
của trang web của bạn.

3. Lỗi điều hướng trang web

crawl-la-gi

  • Điều hướng trên thiết bị di động hiển thị kết quả khác với điều hướng trên máy tính để bàn.

  • Bất kỳ loại điều hướng nào mà các mục menu không có trong HTML, chẳng hạn như điều hướng hỗ trợ JavaScript. Google đã tiến bộ hơn nhiều trong việc thu thập thông tin và hiểu Javascript, nhưng nó vẫn chưa phải là một quá trình hoàn hảo. Cách chắc chắn hơn để đảm bảo thứ gì đó được Google tìm thấy, hiểu và lập chỉ mục là đưa nó vào HTML.

  • Cá nhân hóa hoặc hiển thị điều hướng duy nhất cho một loại khách truy cập cụ thể so với những người khác, dường như đang che giấu trình thu thập thông tin của công cụ tìm kiếm.

  • Quên liên kết đến một trang chính trên trang web thông qua điều hướng của bạn. Hãy nhớ rằng, liên kết là đường dẫn mà trình thu thập thông tin đi theo đến các trang mới.

4. Kiến ​​trúc thông tin không rõ ràng 

Kiến trúc thông tin là thực hành tổ chức và gắn nhãn nội dung trên một trang web để nâng cao hiệu quả và khả năng tìm kiếm cho người dùng. Kiến trúc thông tin tốt nhất là trực quan, có nghĩa là người dùng không cần phải suy nghĩ nhiều để lướt qua trang web của bạn hoặc để tìm thứ gì đó.

5. Thiếu sơ đồ trang web

Sơ đồ trang web là một danh sách các URL trên trang web mà trình thu thập thông tin có thể sử dụng để khám phá và lập chỉ mục nội dung của bạn. Một trong những cách dễ nhất để đảm bảo Google đang tìm thấy các trang có mức độ ưu tiên cao nhất là tạo sitemap đáp ứng các tiêu chuẩn của Google và gửi tệp đó qua Google Search Console. Mặc dù việc gửi sơ đồ trang web không thay thế nhu cầu điều hướng trang web tốt, nhưng nó chắc chắn có thể giúp trình thu thập thông tin theo đường dẫn đến tất cả các trang quan trọng của bạn.

VI - Giúp công cụ tìm kiếm biết cách crawl trang web của bạn

Nếu bạn đã sử dụng Google Search Console hoặc “site: domain.com” và nhận thấy rằng một số trang quan trọng của bạn bị thiếu trong chỉ mục hoặc một số trang không quan trọng của bạn đã bị lập chỉ mục nhầm, bạn có thể sử dụng tệp robots.txt để hướng dẫn Googlebot cách crawl nội dung web của mình.
 
crawl-la-gi
 
Tệp Robots.txt nằm trong thư mục gốc của các trang web (ví dụ: yourdomain.com/robots.txt) và đề xuất những phần nào của công cụ tìm kiếm trang web của bạn nên và không nên thu thập dữ liệu, cũng như tốc độ chúng thu thập dữ liệu trang web của bạn, thông qua các lệnh robots.txt cụ thể.

1. Chỉnh sửa hoặc tạo tệp robots.txt 

Tệp robots.txt cần phải ở gốc trang web của bạn. Nếu tên miền của bạn là example.com, nó sẽ được tìm thấy: 
  • Trên trang web của bạn: https://example.com/robots.txt 

  • Trên máy chủ của bạn: /home/userna5/public_html/robots.txt 

Bạn cũng có thể tạo một tệp mới và gọi nó là tệp robots.txt chỉ là một tệp văn bản thuần túy nếu bạn chưa có.

2. Cách Googlebot xử lý tệp robots.txt

  • Nếu Googlebot không thể tìm thấy tệp robots.txt cho một trang web, nó sẽ tiến hành thu thập dữ liệu trang web.

  • Nếu Googlebot tìm thấy tệp robots.txt cho một trang web, nó thường sẽ tuân theo các đề xuất và tiến hành thu thập dữ liệu trang web.

  • Nếu Googlebot gặp lỗi khi cố gắng truy cập vào tệp robots.txt của trang web và không thể xác định xem tệp đó có tồn tại hay không, nó sẽ không thu thập dữ liệu trang web.

VII - Chặn Google crawl website

Nếu không muốn một số trình thu thập thông tin nhất định duyệt trang web của mình, bạn có thể loại trừ tác nhân người dùng của họ bằng cách sử dụng robots.txt. Tuy nhiên, điều đó không thể ngăn nội dung được lập chỉ mục bởi các công cụ tìm kiếm. Các noindex thẻ meta hoặc thẻ canonical có thể phục vụ tốt hơn cho mục đích này.
 
crawl-la-gi-8
 
Các trình duyệt web như Google Bot đạt được mục đích xếp hạng các trang web trong SERP thông qua quá trình thu thập thông tin và lập chỉ mục. Vì vậy, điều quan trọng là bạn cần giúp công cụ tìm kiếm crawl web đúng cách. Hãy cân nhắc sử dụng  một số biện pháp nhất định để kiểm soát trình thu thập thông tin như Googlebot, chẳng hạn như robots.txt, nhằm cung cấp hướng dẫn cụ thể để không thu thập dữ liệu các khu vực nhất định của trang web và sơ đồ trang web XML.
Việc crawl website giúp cho Google hiểu rõ hơn về cấu trúc website giúp chiến dịch SEO Onpage được triển khai tối ưu và thuận lợi hơn. Ngoài ra các SEOer có thể áp dụng chiến lược SEO Onpage mà Ori đưa ra nhằm tối ưu hiệu quả nhất.

  • Tags
Thực hiện Bởi: ORI MARKETING AGENCY

Tác giả

Crawl là gì? 5 lỗi khiến Google không thể crawl data website đúng cách
Vũ Việt Hoàng
Về đầu trang
0962085490