Robots.txt là một file quan trọng giúp kiểm soát việc truy cập của các trình thu thập thông tin trên website của bạn. Trong bài viết này, chúng ta sẽ tìm hiểu cách tạo file robots.txt cho website của bạn một cách đầy đủ và chính xác.
Cách tạo file robots txt cho website – Hướng dẫn đầy đủ
1. Tìm hiểu về file robots.txt
Trước khi bắt đầu, bạn cần hiểu rõ về file robots.txt. File này là một phần quan trọng của website và được sử dụng để giới hạn hoặc cho phép các trình thu thập thông tin trên website của bạn.

2. Tạo file robots.txt
Để tạo file robots.txt, bạn cần mở trình duyệt và tạo một tệp mới với tên là robots.txt. Bạn có thể sử dụng các trình soạn thảo văn bản như Notepad hoặc Sublime Text để tạo file này. Sau khi tạo file, bạn cần lưu nó vào thư mục gốc của website.
3. Cấu trúc file robots.txt
File robots.txt có cấu trúc đơn giản gồm hai phần: User-agent và Disallow. User-agent là tên của trình thu thập thông tin và Disallow là các đường dẫn mà bạn muốn giới hạn truy cập.
4. Sử dụng các mã lệnh cho file robots.txt
Bạn có thể sử dụng các mã lệnh như User-agent, Disallow, Allow, Sitemap và Craw-delay để tùy chỉnh file robots.txt của mình. Ví dụ: User-agent: *, Disallow: /wp-admin/, Allow: /wp-admin/admin-ajax.php.

5. Các lỗi cần tránh khi tạo file robots.txt
Khi tạo file robots.txt, bạn cần tránh các lỗi như đặt sai đường dẫn, sử dụng sai cú pháp hoặc quên cho phép truy cập vào các trang quan trọng của website.
6. Kiểm tra file robots.txt
Sau khi tạo file robots.txt, bạn cần kiểm tra xem nó có hoạt động đúng không. Bạn có thể sử dụng công cụ kiểm tra robots.txt của Google để kiểm tra file này.
7. Cập nhật và quản lý file robots.txt
Để đảm bảo file robots.txt của bạn luôn hoạt động đúng, bạn cần cập nhật và quản lý nó thường xuyên. Bạn cần cập nhật file này khi thêm hoặc xoá các trang trên website của mình.Tạo file robots.txt là một phương pháp quan trọng giúp bạn kiểm soát việc truy cập của các trình thu thập thông tin trên website của bạn. Bằng cách tìm hiểu về file robots.txt, tạo file, cấu trúc file, sử dụng các mã lệnh, tránh lỗi, kiểm tra file và cập nhật và quản lý file, bạn có thể tạo file robots.txt cho website của mình một cách đầy đủ và chính xác.
File robots.txt là gì?
File robots.txt là một tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

REP cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn các công cụ của Google xử lí các liên kết. (ví dụ: Follow hay Nofollow link).
Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google Index một số phần nào đó trong trang của mình.
Cú pháp của file robots.txt
Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file robots.txt. Chúng bao gồm:
User-agent
: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)Disallow
: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.Allow
(chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.Crawl-delay
: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.Sitemap
: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Pattern – Matching
Trên thực tế các file robots.txt WordPress khá phức tạp để có thể chặn hoặc cho phép các con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt các tùy chọn của URL.
Tất cả các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).
*
là kí tự đại diện cho bất kì chuỗi kí tự nào – Có nghĩa là nó được áp dụng cho mọi loại Bots của các công cụ Google.$
là kí tự khớp với phần cuối của URL.
Định dạng cơ bản của file robots.txt
Tệp robots.txt có định dạng cơ bản sau:
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
Tuy nhiên, bạn vẫn có thể lược bỏ các phần Crawl-delay
và Sitemap
. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file robots.txt chứa nhiều dòng User-agent
và nhiều chỉ thị của người dùng hơn.
Chẳng hạn như các dòng lệnh: Disallow
, Allow
, Crawl-delay
, … Trong file robots.txt, bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.
Trong một file robots.txt WordPress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

File robots.txt chuẩn
Để chặn tất cả các Web Crawler không được thu thập bất kì dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:
User-agent: *
Disallow: /
Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:
User-agent: *
Disallow:
Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:
User-agent: Googlebot
Disallow: /example-subfolder/
Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Ví dụ cho file robots.txt chuẩn
Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml
Theo bạn, cấu trúc file robots.txt có ý nghĩa như thế nào? Để tôi giải thích. Điều này chứng tỏ bạn cho phép toàn bộ các công cụ của Google theo link www.example.com/sitemap_index.xml để tìm đến file robots.txt và phân tích. Cùng index toàn bộ các dữ liệu trong các trang trên website của bạn ngoại trừ trang www.example.com/wp-admin/.

Tại sao bạn cần tạo file robots.txt?
Việc tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy hiểm nếu bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn. Tuy nhiên, việc tạo file robots.txt vẫn thật sự hữu ích bởi nhiều lí do:
- Ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trong website (lưu ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này)
- Giữ một số phần của trang ở chế độ riêng tư
- Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
- Chỉ định vị trí của Sitemap
- Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
- Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Từ khóa tạo file robots txt cho website:
- check robots.txt of a website
- tạo file robots.txt chuẩn
- tạo file robots.txt cho wordpress
- file robots.txt là gì
- file robots.txt wordpress
- robots.txt disallow all
- robots.txt example
- Tạo file robot
Nội dung liên quan:
- User Agent là gì? Những cách nào thay đổi User Agent của trình duyệt?
- Tiềm thức là gì? Đặc điểm, chức năng và cách thức vận hành