Là một SEOer điều đầu tiên bạn cần quan tâm đó chính là file robots txt. Nó là một file văn bản nằm trong thư mục gốc của website và cung cấp thông tin hướng dẫn các công cụ tìm kiếm thu thập thông tin về các trang liên quan để lập chỉ mục. Vậy cách để tạo file này cho WordPress như thế nào? Bài viết dưới đây ORI sẽ đưa ra câu trả lời chi tiết nhất cho những câu hỏi này.
I. Robots txt là gì? Thuật ngữ của robots txt
Robots txt là gì là câu hỏi được nhiều người quan tâm. Thực chất đây là một tệp tin văn bản có đuôi txt thuộc thẻ Robots Exclusion Protocol (REP) do người quản trị website thiết lập. Điều này giúp các bọ tìm kiếm của Google thu thập dữ liệu, truy cập, index các nội dung trên trang web. Sau đó nó sẽ cung cấp những nội dung này cho người dùng.
Thuật ngữ của robots txt phổ biến gồm các cú pháp sau đây:
- User-agent là tên của các trình thu thập, truy cập dữ liệu duyệt web như Bingbot, Googlebot,…
- Allow (chỉ áp dụng cho bọ tìm kiếm của Googlebot) thực hiện thông báo đến Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc thư mục con có thể không được phép truy cập.
- Disallow thông báo cho User-agent không thu thập bất kì một URL cụ thể nào. Mỗi dòng Disallow chỉ dùng cho một URL duy nhất.
- Crawl – delay thông báo đến các Web crawler phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của website. Googlebot không thừa nhận lệnh Craw-delay nên bạn cần phải cài đặt thời gian thu thập dữ liệu trong Google Search Console.
- Sitemap dùng để cung cấp các vị trí của Sitemap XML được liên kết với URL này. Lệnh này chỉ được hỗ trợ bởi một số công cụ như Google, Bing Ask,Yahoo.
II. Tại sao cần phải tạo file robots txt?
Tạo file robots.txt giúp bạn kiểm soát lượng truy cập của các con bọ đến bất kỳ các khu vực nào trên website. Nếu bạn vô tình sai một vài thao tác khiến Googlebot không thể index website sẽ dẫn đến nhiều kết quả khó lường. Bên cạnh đó, việc tạo file robots.txt thực sự hữu ích.
File robots txt giúp ngăn chặn nội dung trùng lặp xuất hiện trên website và cung cấp nhiều thông tin mới, hấp dẫn hơn các web đối thủ. Vì vậy, trang của bạn sẽ thu hút nhiều người truy cập. Một số phần của trang web sẽ được để ở chế độ riêng tư theo ý muốn của người quản trị. Nó cũng giữ các kết quả tìm kiếm nội bộ không hiển thị công khai trên trang kết quả của công cụ tìm kiếm.
Ngoài ra, robots txt còn giúp chỉ định vị trí của sitemap đồng thời ngăn chặn, hạn chế công cụ tìm kiếm index một số tệp trên website của bạn. Bên cạnh đó, lệnh crawl – delay giúp cài đặt thời gian và hạn chế tình trạng máy chủ bị quá tải khi các trình thu thập dữ liệu tải lên nhiều nội dung trong cùng một thời điểm.
Để hiểu hơn về cách thức hoạt động của Robots txt hãy cùng tìm hiểu về Crawl website cũng như cách hoạt động của nó trong file Robots txt.
Để hiểu hơn về cách thức hoạt động của Robots txt hãy cùng tìm hiểu về Crawl website cũng như cách hoạt động của nó trong file Robots txt.
III. Nhược điểm của file robots txt
Bên cạnh các ưu điểm phía trên thì file robots txt vẫn còn tồn tại một số nhược điểm như:
1. Độ bảo mật của file robots txt kém
Độ bảo mật của robots txt kém nên để bảo mật dữ liệu quản trị viên nên đặt mật khẩu cho từng tệp riêng tư ở trên máy chủ. Ngoài ra, mỗi trình trình tìm kiếm sẽ có cách giải mã dữ liệu khác nhau. Từ đó dẫn tới một số trình không hiểu câu lệnh được cài trong file robots txt. Để khắc phục tình trạng này, người phát triển web cần nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.
2. Google vẫn có thể index URL dù bị robots txt chặn
Ngoài ra, Google vẫn có thể lập chỉ mục một trang bị robots.txt chặn nếu có các trang web khác liên kết đến trang đó. Đặc biệt, các trình thu thập dữ liệu phân tích các thuật ngữ theo nhiều cách khác nhau, không cố định.
IV. Robots txt ảnh hưởng thế nào tới hoạt động của các công cụ tìm kiếm?
Các công cụ tìm kiếm sẽ có hai nhiệm vụ chính ở trên trang là khám phá và index nội dung trong chiến dịch SEO Onpage. Trước tiên, công cụ phân tích sẽ đi theo các liên kết tới các trang khác nhau để thu thập nội dung. Khi tới một trang bất kỳ, các con bot sẽ tìm tới file robots txt để xem những thông tin cần thu thập ở trang web.
Trong trường hợp tệp robots txt không chứa bất kỳ chỉ thị nào hoặc quản trị viên không tạo file này thì các con bot sẽ thu thập thông tin khác trên web. Sau khi đã thu thập hết thông tin, các bot sẽ phân tích và tiến hành index.
V. Hướng dẫn tạo file robots txt cho WordPress
Để tạo file robots txt cho WordPress, bạn có thể thực hiện một trong 3 cách sau:
1. Hướng dẫn tạo file robots txt cho WordPress qua Yoast Seo
Cách đơn giản nhất để tạo robots txt cho WordPress là bạn sử dụng WordPress Dashboard. Cách làm đơn giản như sau:
Bước 1: Bạn cần đăng nhập vào website trên WordPress
Bước 2: Chọn SEO và hiện ra các mục nhỏ General, Search Appearance, Social, Tool và Premium
Bước 3: Tiến hành chọn Tool là sẽ hiện ra cửa sổ mới.
Bước 4: Chọn File Editor, bạn sẽ thấy robots txt và htaccess file và bạn tiến hành tạo robots txt cho website tại đây.
2. Hướng dẫn tạo file robots txt cho WordPress qua Plugin All in One SEO
Cách thứ 2 để tạo robots txt cho WordPress là dùng Plugin All in One SEO. Plugin này tương đối đơn giản và dễ dùng dành cho những người mới. Các bước thực hiện như dưới đây:
Bước 1: Bạn cần bộ Plugin, nếu chưa có phải tải về.
Bước 2: Truy cập giao diện Plugin All in One SEO. Tiến hành chọn All in One SEO, ở đây sẽ hiện ra General Settings, Performance, XML Sitemap, Bad Bot Blocker và Feature Manager.
Bước 3: Chọn mục Feature Manager, vào mục Robots.txt ấn activate. Bạn có thể dễ dàng tạo file robots txt cho WordPress tại đây.
Lưu ý, All in One Seo không chỉnh sửa file như Yoast Seo mà chỉ làm mờ thông tin của robots txt. Điều này khiến người dùng bị động trong việc chỉnh sửa nhưng nó sẽ ngăn chặn các bots gây hại cho web.
3. Hướng dẫn tạo file robots txt cho WordPress sau đó up file qua FTP
Nếu không muốn dùng plugin để tạo robots txt cho website, bạn có thể tự tạo file thủ công rồi dùng FTP để upload lên WordPress. Cách thực hiện như sau:
Bước 1: Vào Notepad hoặc Text Edit để tạo robots txt cho website WordPress.
Bước 2: Sau đó mở FTP rồi tiến hành chọn thư mục public_html.
Bước 3: Chọn file robots.txt và upload để tải lên.
VI. Các lỗi thường gặp khi tạo robots txt
Các lỗi phổ biến khi tạo file robots txt là gì? Đầu tiên, đó là file không có trong thư mục gốc. Để khắc phục, bạn cần có quyền truy cập và can thiệp trực tiếp vào máy chủ sau đó di chuyển tệp vào thư mục gốc. Tiếp theo là lỗi không có đường dẫn sơ đồ trang web, bạn nên thêm URL sơ đồ website vào robots txt vì Googlebot sẽ thu thập dữ liệu và Seo sẽ tăng lên đáng kể.
Một số User-agent bỏ qua các file robots.txt chuẩn. Điều này sẽ giúp các User – agent có các đoạn mã độc hại xâm nhập gây hậu quả khó lường cho website. Mỗi phần mở rộng của tên miền trên một Root Domain sẽ sử dụng các file robots.txt khác nhau. Do đó, blog.example.com và example.com có các file robots.txt khác nhau và riêng biệt. Vì vậy nên lựa chọn cách này để chỉ ra vị trí của bất kì sitemaps được liên kết với tên miền ở cuối file robots.txt.
Bên cạnh đó, các file robots.txt thường có sẵn và được công khai trên các website, chỉ cần thêm đuôi /robots.txt vào cuối các tên miền gốc để xem các chỉ thị của trang web. Cho nên bất kì ai cũng thấy các trang bạn muốn hoặc không muốn công khai, kể cả những điều riêng tư. Vì vậy, không nên sử dụng các tệp này để ẩn thông tin cá nhân của người dùng, nó sẽ làm lộ lượng lớn thông tin truy cập.
VII. Các quy tắc khi tạo file robots txt
Việc tạo tệp robots txt không quá phức tạp nhưng bạn cần lưu ý những quy tắc sau:
- Để các con bot dễ dàng tìm thấy thì file robots txt phải được đặt trong các thư mục “cao nhất” trong hệ thống phân cấp của website.
- File txt phân biệt chữ hoa và chữ thường nên file phải được đặt tên là robots.txt. Bạn không thể đặt là Robots.txt, robots.TXT hoặc có chứa các chữ in hoa khác.
- Không nên sử dụng file robots.txt để chặn các dữ liệu riêng tư như thông tin người dùng xuất hiện trong kết quả tìm kiếm. Vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp an toàn hơn thay vì tạo tệp robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex.
- Các công cụ tìm kiếm như Google bot sẽ lưu trữ nội dung trong tệp robots.txt WordPress. Dẫu vậy, nó sẽ cập nhật nội dung mới nhất trong bộ nhớ cache tối thiểu một lần một ngày. Nếu bạn muốn cập nhật nội dung tìm kiếm tệp của mình nhanh hơn thì hãy sử dụng chức năng gửi của trình kiểm tra tệp robots.txt.
VIII. Các câu hỏi thường gặp về robots txt
Bên cạnh những thông tin cơ bản trên của robots.txt, người dùng còn có rất nhiều thắc mắc khác liên quan về chủ đề này gồm:
1. Nên sử dụng chương trình nào để tạo robots txt?
Bạn có thể sử dụng nhiều chương trình để tạo file robots txt. Tạo robots txt cho WordPress qua các chương trình thường như Yoast Seo, Plugin All in One SEO, Notepad, TextEdit,….
Ngoài ra, Google Search Console cũng có thể giúp bạn tạo robots.txt cho website. Khi file robots.txt đã được cài đặt trên các trang web, bạn có thể xác minh tính hợp lệ bằng cách sử dụng tính năng tìm nạp bởi Googlebot trong công cụ quản trị trang web của Google.
2. Nếu chặn Google thu thập dữ liệu một trang bằng lệnh disallow, trang đó có biến mất khỏi kết quả tìm kiếm không?
Lệnh Disallow trong robots.txt không đảm bảo rằng một trang sẽ không xuất hiện trên kết quả tìm kiếm. Google vẫn có thể index dựa trên các thông tin như các liên kết, các trang có liên quan. Nếu bạn muốn chặn lập chỉ mục một trang hoàn toàn tuyệt đối, hãy sử dụng các thẻ meta robot noindex hoặc tiêu đề HTTP X-Robots-Tag.
3. Nếu gặp lỗi trong robots.txt điều gì sẽ xảy ra?
Trình thu thập dữ liệu web hoạt động khá tốt và thường sẽ không bị ảnh hưởng bởi những lỗi nhỏ xảy ra trong file robots.txt. Nhưng bạn cũng không thể chủ quan, kết quả xấu nhất có thể xảy ra là lệnh không chính xác hoặc không được hỗ trợ và tìm kiếm sẽ bị bỏ qua. Vì vậy, các bạn cần phải phân tích tệp robots.txt mà Google Search Console tìm nạp.
4. Trong thời gian bao lâu thì các thay đổi trong tệp robots.txt xuất hiện trong kết quả tìm kiếm?
Bộ nhớ cache của tệp robots.txt sẽ được làm mới liên tục. Ngay sau khi tìm thấy các thay đổi, thu thập dữ liệu và lập chỉ mục là một quá trình phức tạp và có thể mất thời gian khá lâu với các URL riêng lẻ. Vì vậy, chúng tôi không thể đưa ra mốc thời gian chính xác.
Như vậy, những thông tin trên đã cung cấp cho câu trả lời cho câu hỏi Robots txt là gì. Hy vọng bạn sẽ áp dụng thật tốt kiến thức để website của mình tăng thứ hạng trên bảng kết quả tìm kiếm Google. Nếu bạn còn bất kỳ thắc mắc nào về Robots txt hoặc SEO thì vui lòng liên hệ với ORI để được hỗ trợ kịp thời. Chúng tôi luôn sẵn sàng đem tới những dịch vụ chất lượng nhất cho bạn.