Công dụng của file robots.txt và cách tạo file này trong WordPress

robots.txt

Tổng quan những điều cơ bản về file robots.txt là gì?

Có bao giờ bạn đọc được vài tip hoặc trick trên internet nói về file robots.txt để tối ưu SEO hiệu quả chưa? File robots.txt có tác dụng dẫn đường và chỉ lối cho bộ máy tìm kiếm. Rằng nó sẽ được và không được thu thập thông tin gì trên website của bạn?

robots.txt

Điều đó đã khiến nó thực sự rất quan trọng cho SEO. Trong bài viết này Semtek Co,. LTD sẽ hướng dẫn bạn làm thế nào để tạo một file robots.txt để tối ưu SEO hiệu quả.

1. File robots txt là gì?

Nói một cách ngắn gọn nhất Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.

2. Robots.txt Hoạt động như thế nào?

  • Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
  • Dấu # được sử dụng trước các dòng cần comment.
  • robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.
  • Các tham số có trong file robots.txt
  • Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
  • User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp

3. Tác dụng của file Robots txt

Như nêu ở phía trên, tác dụng của việc tạo file robots.txt cho website hay blog của mình. Nhằm mục đích cho phép và ngăn chặn bot của các công cụ tìm kiếm và index các nội dung trên website.

Bạn có thể chặn các bot tìm kiếm dữ liệu trong một thư mục nào đó trên website, hoặc chặn bot index một đường dẫn nào đó bằng cách Disallow: “….”

Có thể xét ví dụ bên trên: Chặn các bot của công cụ tìm kiếm index các nội dung trong thư mục /wp-admin/ và /wp-includes/.

Thì đó là tác dụng chính của file robots.txt này. Và điều này là rất cần thiết.

5 công dụng của file robots.txt trong SEO

Robots.txt là một file đặt trên hosting. Nó dùng để cấp quyền lập chỉ mục cho bọ công cụ tìm kiếm.

Khi dùng file robots.txt, bạn cần cẩn trọng. Vì nếu điều chỉnh sai, mọi thành quả SEO sẽ đổ sông đổ bể.

Nếu dự án của bạn nhỏ, và bạn không biết chắc chắn mình đang làm gì, tốt nhất, bạn không nên dùng file robots.txt. Cứ để mọi thứ tự nhiên như thế.

Tuy nhiên, với những dự án lớn, đặc biệt là e – comerce, việc sử dụng file robot.txt gần như là bắt buộc. File robots.txt giúp bọ Google index trang web của bạn hiệu quả hơn, chống đối thủ dò quét backlink, cũng như hạn chế nội dung trùng lặp rất thường gặp khi SEO cho lĩnh vực e-comerce.

Bài viết này, Semtek sẽ giới thiệu tới bạn một số cách sử dụng file robots.txt phổ biến nhất hiện nay.

1. Chặn bọ trong quá trình set up hệ thống

Trong quá trình thiết kế website (thiết kế giao diện, cài đặt plugin, xây dựng cấu trúc trang web), mọi thứ còn rất bừa bộn. Bạn nên chặn bọ Google, để nó không index những nội dung chưa hoàn thiện mà bạn không mong muốn.

robots.txt

Để chặn bọ Google, bạn khai báo file robot.txt như sau:

User-agent: *

Disallow: /

Nếu dùng WordPress, có một cách chặn dễ làm hơn. Bạn vào phần Settings / Reading / Search Engine Visibility, chọn ô Discourage search engines from indexing this site là xong.

Lưu ý quan trọng: Cách cấu hình file robot.txt như trên, bạn chỉ được dùng trong khi setup hệ thống. Nếu trang web đang ổn định, bạn nghịch ngu chèn mã trên vào file robots.txt là xong phim. Vì khi đó, bạn đã chặn bọ Google index trang web.

2. Chèn sitemap

Sitemap giống như một tấm bản đồ để bọ Google khám phá trang web của bạn. Nếu số lượng index của trang web quá lớn mà trang web không có sitemap, bọ Google có thể sẽ không đủ tài nguyên (crawl budget) để quét hết trang web của bạn. Từ đó, Google có thể sẽ không index được một số nội dung quan trọng.

robots.txt

Một trang web có thể có nhiều hơn một sitemap (ví dụ như sitemap bài viết, sitemap hình ảnh, sitemap tin tức…). Bạn nên dùng một phần mềm để tạo sitemap cho trang web, rồi sau đó khai báo các đường dẫn sitemap đó vào trong file robots.txt.

Nếu dùng WordPress, Yoast SEO đã tự động tạo sitemap cho bạn. Với mã nguồn non-WordPress, bạn có thể dùng Screaming Frog / Website Auditor để quét, và tạo sitemap thay thế cho Yoast SEO.

Ví dụ: Hãy xem anh Hoàng, Team Ba Phải chèn file sitemap vào file robots.txt như thế nào:

User-agent: *

Sitemap: 

3. Chặn bọ check Backlink

Hiện tại ở Việt Nam, ba công cụ check backlink phổ biến nhất là Ahrefs, Majestic và Moz. Bọ của chúng có tên tương ứng là AhrefsBot (Ahrefs), mj12bot (Majestic) và rogerbot(Moz).

Để không cho đối thủ dùng công cụ để phân tích backlink của bạn, bạn có thể chặn bọ của chúng trong file robots.txt.

Ví dụ, bạn muốn chặn bọ của Ahrefs, cú pháp như sau:

User-agent: AhrefsBot

Disallow: /

Hãy xem cách phòng thủ của Sen Đỏ. Họ chặn bọ của Ahrefs, Majestic, Moz và thêm 4 con bọ khác. Bạn xem tại đây.

Ngoài ra, trên thế giới còn có nhiều công cụ check backlink khác. Bạn có thể xem các con bọ đó, do bạn Cao Tú tổng hợp tại đây.

Lưu ý: Muốn chặn triệt để bọ Ahrefs / Majestic / Moz… , bạn cần chặn hai đầu nhé. Ví dụ như moneysite của bạn có 200 domain trỏ về, trong đó có 10 domain là vệ tinh của bạn.

Khi đó, bạn cần chặn bọ Ahrefs / Majestic / Moz… trên money site và cả trên 10 vệ tinh kia nhé. Vì nếu chỉ chặn một đầu (moneysite), bọ Ahrefs / Majestic / Moz…. vẫn có thể dò ra được backlink đó.

4. Chặn bọ độc hại

Ngoài bọ check backlink, còn một số loại bọ độc hại khác.

Ví dụ như, Amazon, gã khổng lồ của ngành e-commerce thế giới, phải chặn một con bọ có tên là EtaoSpider.

Trích đoạn file robot.txt của Amazon:

User-agent: EtaoSpider

Disallow:  /

EtaoSpider, chính là bọ của Alibaba. Nó được thiết kế, để quét và sao chép nội dung tự động từ Amazon (xem chi tiết tại .

Cuộc chiến của Amazon và Alibaba, diễn ra ngay trên cách cấu hình file robots.txt của họ.

Ngoài EtaoSpider, còn có những con bọ được thiết kế chuyên dụng chỉ dùng để đi copy nội dung người khác (như Zealbot, MSIECrawler, SiteSnagger, WebStripper, WebCopier…), hoặc gửi quá nhiều / quá nhanh request tới máy chủ ( như fast, wget, NPBot, grub-client…), từ đó làm hao phí băng thông và tài nguyên hệ thống.

Bạn có thể tham khảo danh sách những con bọ đó, và lí do chặn chúng tại đây.

5. Chặn thư mục nhạy cảm

Mã nguồn trang web, thông thường có thư mục nhạy cảm, chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….

Bạn không nên cho bọ tìm kiếm index những nội dung này, vì khi đó, nội dung của chúng sẽ bị public trên internet. Hacker có thể moi được thông tin từ chúng, để tấn công hệ thống của bạn.

Dưới đây là mẫu file robots.txt WordPress mặc định bạn có thể sử dụng:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Tuy nhiên, nhược điểm của file robots.txt là nó chặn được bọ robot, nhưng lại để lộ đường dẫn URL chứa thông tin quan trọng. Do đó, bạn cần chỉnh lại file .htaccess / nginx để chặn truy cập bất thường của con người tới những file này.

Nếu là người dùng phổ thông, tốt nhất, bạn nên nói bên hosting backup dữ liệu tự động cho bạn định kỳ hàng tuần. Lỡ có biến thì còn đường mà đỡ.

Làm thế nào để tạo file robots.txt trong WordPress

Có 2 cách để tạo file robots.txt trong WordPress, nói chung là đều khá đơn giản. Trong bài viết này tôi sẽ hướng dẫn bạn cả 2 cách.

Cách 1: Tạo file robots.txt bằng Yoast SEO plugin

Nếu bạn đang sử dụng Yoast SEO thì nó có sẵn tính năng tạo file robots.txt cho bạn.

Bạn có thể tạo và chỉnh sửa trực tiếp từ khu vực admin.

Đơn giản đi đến menu SEO » Tools và chọn File Editor

robots.txt

Ngay sau đó Yoast SEO sẽ hiển thị file robots.txt bạn đã có.

robots.txt

Nếu không có file robots.txt. Yoast SEO sẽ tạo giúp bạn bằng bấm vào nút dưới đây.

Mặc định thì file robots.txt được Yoast SEO tạo có cấu trúc như sau:

1 User-agent: *

2 Disallow: /

Lưu ý: Với cấu trúc như này thì tất cả các công cụ tìm kiếm sẽ bị chặn và không thể thu thập nội dung trên website bạn được.

Tốt nhất là nên sử dụng cấu trúc Diều Hâu khuyên dùng ở trên nhé các bạn, hoặc tự tạo cho riêng mình. Và nhớ lưu lại nhé.

Cách 2: Tạo file robots.txt bằng cách thủ công sử dụng FTP

Với phương pháp này bạn cần sử dụng FTP client để chỉnh sửa file trên VPS hoặc nếu bạn dùng Hosting có Cpanel có thể vào File Manager để chỉnh sửa.

Truy cập vào thư mục chính trên WordPress bằng FTP và edit trực tiếp

Nếu bạn không thấy file robots.txt nào, hãy tạo bằng cách chuột phải và creat new file.

File robots.txt đơn giản chỉ là một file text bạn có thể download nó về edit bằng notepad, notepad++ hoặc phần mềm tương tự, save lại và upload lên lại hosting là được.

Bạn có cần đến file robots.txt cho website WordPress không?

Mặc định thì kể cả bạn không có file này thì công cụ tìm kiếm nó vẫn index website.

Tuy nhiên đôi khi có một số file quan trọng bạn không muốn nó bị lộ thông tin ra ngoài thì đây là lúc cần nó. Nếu bạn là một người mới bắt đầu và mới xây dựng blog với số lượng nội dung ít ỏi thì đây chắc chắn không phải vấn đề bạn cần để ý.

Nhưng dần dần khi website bạn phát triển có nhiều nội dung hơn, nhiều organic traffic hơn. Thì bạn sẽ cần phải để ý về vấn đề số lượng thông tin bị thu thập.

robots.txt

Và đây là lý do tại sao file robots.txt lại quan trọng đến vậy:

  • Các con bọ của công cụ tìm kiếm có một giới hạn nhất định cho mỗi website.
  • Có nghĩa là mỗi lần đi chúng sẽ thu thập một số lượng page nhất định trên website đó.
  • Nếu nó vẫn chưa thu thập xong hết tất cả các page thì lần sau nó sẽ quay lại và tiếp tục.
  • Vì vậy mà website với lượng bài viết lớn thì sẽ có thể việc index sẽ bị ảnh hưởng và chậm hơn.
  • Để khác phục điều này thì bạn có thể disallow một số page không cần thiết trong WordPress như admin, folder plugins và themes.
  • Như vậy là bạn đã bớt được số lượng thông tin mà các con bọ không cần thiết phải thu thập, và nó sẽ khiến những nội dung quan trọng được index nhanh hơn.
  • Còn trong một số trường hợp đặc biệt bạn còn có thể ngăn công cụ tìm kiếm không index một số Page hoặc Post nào đó trên website của bạn.
  • Mặc dù nó không phải là cách tốt nhất để che dấu nội dung đó, nhưng nó cũng khá hiệu quả để không bị tìm thấy trên kết quả tìm kiếm.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *