I. Robots txt là gì? Thuật ngữ của robots txt

- User-agent là tên của các trình thu thập, truy cập dữ liệu duyệt web như Bingbot, Googlebot,…
- Allow (chỉ áp dụng cho bọ tìm kiếm của Googlebot) thực hiện thông báo đến Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc thư mục con có thể không được phép truy cập.
- Disallow thông báo cho User-agent không thu thập bất kì một URL cụ thể nào. Mỗi dòng Disallow chỉ dùng cho một URL duy nhất.
- Crawl – delay thông báo đến các Web crawler phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của website. Googlebot không thừa nhận lệnh Craw-delay nên bạn cần phải cài đặt thời gian thu thập dữ liệu trong Google Search Console.
- Sitemap dùng để cung cấp các vị trí của Sitemap XML được liên kết với URL này. Lệnh này chỉ được hỗ trợ bởi một số công cụ như Google, Bing Ask,Yahoo.
II. Ưu điểm của việc tạo file robots txt là gì?
Việc tạo file Robots.txt mang lại nhiều lợi ích quan trọng cho quá trình quản lý và tối ưu hóa website. Đây là công cụ giúp người quản trị web kiểm soát hoạt động thu thập dữ liệu của các công cụ tìm kiếm, đồng thời đảm bảo hiệu suất vận hành ổn định cho trang.
1. Kiểm soát hoạt động thu thập dữ liệu của bot
Robots.txt cho phép bạn giới hạn quyền truy cập của các công cụ tìm kiếm vào từng phần cụ thể trên website. Nhờ đó, bạn có thể tránh việc Googlebot hoặc các trình thu thập dữ liệu khác index những nội dung không cần thiết, bảo vệ các khu vực riêng tư hoặc nội bộ.
2. Ngăn chặn nội dung trùng lặp
Một trong những ưu điểm lớn của Robots.txt là giúp ngăn các công cụ tìm kiếm index những trang có nội dung trùng lặp, từ đó cải thiện chất lượng SEO và nâng cao thứ hạng trên kết quả tìm kiếm.
3. Cải thiện trải nghiệm người dùng và tối ưu tốc độ tải trang
Bằng cách giới hạn bot chỉ thu thập dữ liệu ở những khu vực cần thiết, bạn giúp giảm tải cho máy chủ và đảm bảo tốc độ phản hồi website luôn ổn định, đặc biệt khi có nhiều bot truy cập cùng lúc.
4. Hỗ trợ khai báo sitemap cho công cụ tìm kiếm
File Robots.txt cũng có thể được dùng để chỉ định vị trí của sitemap, giúp Google và các công cụ tìm kiếm khác dễ dàng nhận biết cấu trúc trang, thu thập dữ liệu chính xác và nhanh chóng hơn.
5. Giảm nguy cơ quá tải máy chủ nhờ lệnh crawl-delay
Thông qua lệnh Crawl-delay, bạn có thể điều chỉnh tần suất truy cập của bot, giúp tránh tình trạng máy chủ bị quá tải khi có nhiều yêu cầu quét dữ liệu diễn ra cùng lúc.
III. Nhược điểm của file robots txt là gì?
1. Độ bảo mật của file robots txt kém
2. Google vẫn có thể index URL dù bị robots txt chặn

IV. Công dụng của Robots txt đối với hoạt động của các công cụ tìm kiếm
V. Hướng dẫn tạo file robots txt cho WordPress
1. Hướng dẫn tạo file robots txt cho WordPress qua Yoast Seo
- Bước 1: Bạn cần đăng nhập vào website trên WordPress
- Bước 2: Chọn SEO và hiện ra các mục nhỏ General, Search Appearance, Social, Tool và Premium
- Bước 3: Tiến hành chọn Tool là sẽ hiện ra cửa sổ mới.
- Bước 4: Chọn File Editor, bạn sẽ thấy robots txt và htaccess file và bạn tiến hành tạo robots txt cho website tại đây.
2. Hướng dẫn tạo file robots txt cho WordPress qua Plugin All in One SEO
- Bước 1: Bạn cần bộ Plugin, nếu chưa có phải tải về.
- Bước 2: Truy cập giao diện Plugin All in One SEO. Tiến hành chọn All in One SEO, ở đây sẽ hiện ra General Settings, Performance, XML Sitemap, Bad Bot Blocker và Feature Manager.
- Bước 3: Chọn mục Feature Manager, vào mục Robots.txt ấn activate. Bạn có thể dễ dàng tạo file robots txt cho WordPress tại đây.

3. Hướng dẫn tạo file robots txt cho WordPress sau đó up file qua FTP
- Bước 1: Vào Notepad hoặc Text Edit để tạo robots txt cho website WordPress.
- Bước 2: Sau đó mở FTP rồi tiến hành chọn thư mục public_html.
- Bước 3: Chọn file robots.txt và upload để tải lên.
VI. Cách mở file robots.txt
Để xem nội dung của file robots.txt, bạn có thể thực hiện rất đơn giản.
- Trên trình duyệt web: Chỉ cần nhập tên miền website của bạn kèm “/robots.txt” (ví dụ: https://www.orimagency.vn/robots.txt). Nếu file tồn tại, trình duyệt sẽ hiển thị toàn bộ nội dung.
- Trên máy chủ hoặc WordPress: Nếu bạn có quyền truy cập vào thư mục gốc (root directory) của website, hãy mở file bằng các công cụ như File Manager trong cPanel hoặc FTP Client (FileZilla). Trong WordPress, file này thường nằm ở thư mục public_html hoặc www.
- Trên máy tính cá nhân: Nếu bạn đã tải về, bạn có thể mở file bằng Notepad, VS Code, hoặc Sublime Text — đây đều là những trình soạn thảo văn bản cơ bản hỗ trợ đọc định dạng .txt.
VII. Cách chuyển đổi file robots.txt sang định dạng khác
Thông thường, robots.txt chỉ cần ở định dạng .txt để các công cụ tìm kiếm dễ dàng nhận diện. Tuy nhiên, trong một số trường hợp, bạn có thể cần chuyển đổi định dạng để phục vụ lưu trữ hoặc chỉnh sửa.
- Chuyển sang .docx hoặc .pdf: Mở file robots.txt trong Notepad, chọn Save As → Save as type → All files, rồi đổi phần đuôi sang .docx hoặc .pdf. Hoặc bạn có thể dùng công cụ trực tuyến như Convertio, Online-Convert để thực hiện nhanh chóng.
- Chuyển sang .csv hoặc .xml: Nếu bạn muốn tích hợp dữ liệu với bảng tính hoặc sitemap, hãy sử dụng phần mềm như Excel hoặc Google Sheets, chọn tính năng Nhập tệp văn bản (.txt) rồi lưu lại dưới định dạng mong muốn.
Lưu ý: Sau khi chuyển đổi, file mới chỉ mang tính tham khảo hoặc chỉnh sửa nội bộ. Google chỉ đọc được tệp robots ở định dạng .txt, vì vậy khi sử dụng thật trên website, bạn vẫn cần đảm bảo file robots.txt được đặt đúng định dạng và đúng vị trí trong thư mục gốc.
VIII. Các lỗi thường gặp khi tạo robots txt

IX. Lưu ý các quy tắc khi tạo file robots txt
- Để các con bot dễ dàng tìm thấy thì file robots txt phải được đặt trong các thư mục “cao nhất” trong hệ thống phân cấp của website.
- File txt phân biệt chữ hoa và chữ thường nên file phải được đặt tên là robots.txt. Bạn không thể đặt là Robots.txt, robots.TXT hoặc có chứa các chữ in hoa khác.
- Không nên sử dụng file robots.txt để chặn các dữ liệu riêng tư như thông tin người dùng xuất hiện trong kết quả tìm kiếm. Vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp an toàn hơn thay vì tạo tệp robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex.
- Các công cụ tìm kiếm như Google bot sẽ lưu trữ nội dung trong tệp robots.txt WordPress. Dẫu vậy, nó sẽ cập nhật nội dung mới nhất trong bộ nhớ cache tối thiểu một lần một ngày. Nếu bạn muốn cập nhật nội dung tìm kiếm tệp của mình nhanh hơn thì hãy sử dụng chức năng gửi của trình kiểm tra tệp robots.txt.
X. Các câu hỏi thường gặp về robots txt
1. Nên sử dụng chương trình nào để tạo robots txt?

2. Nếu chặn Google thu thập dữ liệu một trang bằng lệnh disallow, trang đó có biến mất khỏi kết quả tìm kiếm không?
3. Nếu gặp lỗi trong robots.txt điều gì sẽ xảy ra?



