File Robots.txt là gì?

Robots.txt là gì? Đây là một tệp tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục. Một trong những điều đầu tiên bạn cần phải kiểm tra và tối ưu hóa khi làm việc về SEO kỹ thuật của bạn là file robots.txt. Sự cố hoặc cấu hình sai trong robots.txt của bạn có thể gây ra các vấn đề SEO quan trọng có thể tác động tiêu cực đến thứ hạng và lượng truy cập của bạn. Vậy file robots.txt là gì? Tại sao chúng ta lạn cần nó? Cùng SEMTEK tìm hiểu ngay nhé.

File robots.txt là gì?

1. Khái niệm robots.txt là gì?

Robots.txt là một tệp tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục.

Nói một cách ngắn gọn nhất Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.

Khi truy cập trang web, điều đầu tiên công cụ tìm kiếm làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URLS có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web. robots.txt là gì

Nội dung của tệp robots.txt được công khai trên Internet. Trừ khi được bảo vệ bằng cách khác (tôi cũng chưa biết bảo vệ bằng cách nào), bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn vì vậy đây không phải là nơi để thêm nội dung mà bạn không muốn người khác xem.

robots.txt là gì

2. Một số lưu ý khi sử dụng Robot.txt là gì? 

Câu lệnh cần viết chính xác, không thiếu hay thừa ký tự hay khoảng trắng, và có phân biệt chữ hoa chữ thường.

File phải được lưu với bảng mã là utf-8, không sử dụng mã Unicode vì như vậy sẽ hiển thị ra các ký tự không đúng với mong muốn, và làm sai mã chỉ dẫn.

Việc chặn bằng file này không mang tính tuyệt đối. Nếu bạn đặt đường link từ trang không bị chặn đến trang bị chặn, thì trang bị chặn vẫn rất có thể xuất hiện trên kết quả tìm kiếm. Vì vậy khi muốn bảo vệ nội dung, để cho chắc bạn nên đặt mật khẩu bảo vệ cho những thư mục hoặc trang nào cần thiết.

3. Tại sao nên tối ưu file robots.txt?

Việc cấu hình file robots.txt sẽ giúp bạn cho phép hoặc ngăn chặn con bọ của công cụ tìm kiếm quét website. Ngoài ra, nó còn ngăn chặn những con bọ của các chương trình khác quét mã nguồn website. Điển hình của mấy anh copy mã nguồn web, rip templates. robots.txt là gì

Một ví dụ của việc copy web là chương trình HTTrack Website Copier. Việc chặn bot của HTTrack Website Copier sẽ giúp việc chương trình này copy website tự động.

Hơn nữa, từ một số nguồn thông tin cho hay, việc cấu hình file robots.txt sẽ giúp phần nào hacker phá hoại, ăn cắp thông tin… Vỏ quýt dày có móng tay nhọn, mấy thánh hacker trình ngon thì không nói trước được =)).

Dù sao thì, việc tối ưu file robots.txt là vô cùng cần thiết. Bởi nó ảnh hưởng tốt đến SEO, và phần nào giảm thiểu nguy cơ bị copy mã nguồn, bị hack, bị phá hoại.

Hoạt động của Robots.txt là gì?

Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.

  • Dấu # được sử dụng trước các dòng cần comment. robots.txt là gì
  • robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.

Các tham số có trong file robots.txt

  • Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
  • User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp

robots.txt là gì

Cú pháp của tệp robots.txt 

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt.

Có 5 thuật ngữ phổ biến mà bạn có thể bắt gặp trong một file robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Lệnh này được sử dụng để thông báo cho các user-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng disallow. robots.txt là gì
  • Allow (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Phần này thông báo cho các web crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng Googlebot không thừa nhận lệnh này. Bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • itemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Nội dung hữu ích liên quan  Khái niệm add on domain là gì? Cách Addon Domain vào cPanel

Mẫu tối ưu của file Robots.txt là gì?

1. Cách tạo file robots.txt là gì?

File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad. Nếu bạn sử dụng WordPress Một file robots.txt sẽ có dạng như sau :

  • User-agent: *
  • Disallow: /wp-
  • Disallow: /feed/
  • Disallow: /trackback/

Ví dụ:

  • User-agent: * : Cho tất các các loại bot truy cập vào website
  • Disallow: / : Chặn không cho bot truy cập vào toàn bộ website robots.txt là gì
  • Disallow: /images/nguoidep.JPG : Chặn không cho bot truy cập vào file ảnh có tên nguoidep.JPG
  • Disallow: /administrator/ : chặn không cho bot truy cập vào trang quản trị.

robots.txt là gì

2. Mẫu file robots.txt đã tối ưu

Sau đây là 2 dạng file Robots.txt mẫu để bạn tham khảo

Mẫu File Robots.txt tối ưu 1

  • User-agent: *
  • Disallow: /wp-admin/
  • Allow: /wp-admin/admin-ajax.php robots.txt là gì

Mẫu này là mẫu mặc định mà WordPress tạo ra, thường rất nhiều website để file robots.txt ở dạng này.

Mẫu File Robots.txt tối ưu 2

  • User-agent: *
  • Disallow: /wp-admin/
  • Allow: /wp-admin/admin-ajax.php

User-agent: Teleport
Disallow: /

 

User-agent: TeleportPro
Disallow: /

 

User-agent: EmailCollector
Disallow: /

 

User-agent: EmailSiphon
Disallow: /

 

User-agent: WebBandit
Disallow: /

 

User-agent: WebZIP
Disallow: /

 

User-agent: WebReaper
Disallow: /

 

User-agent: WebStripper
Disallow: /

 

User-agent: Web Downloader
Disallow: /

 

User-agent: WebCopier
Disallow: /

 

User-agent: Offline Explorer Pro
Disallow: /

 

User-agent: Offline Explorer
Disallow: /

 

User-agent: HTTrack Website Copier
Disallow: /

 

User-agent: Offline Commander
Disallow: /

 

User-agent: Leech
Disallow: /

 

User-agent: WebSnake
Disallow: /

 

User-agent: BlackWidow
Disallow: /

 

User-agent: HTTP Weazel
Disallow: /

Lý do sử dụng WordPress với file robots.txt là gì?

Việc tạo file robots.txt cho wordpress giúp bạn kiểm soát việc truy cập của các con bots đến các khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy hiểm nếu như bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn.

Tuy nhiên, việc tạo file robots.txt cho wordpress vẫn thật sự hữu ích bởi nhiều lí do: robots.txt là gì

  • Ngăn chặn nội dung trùng lặp xuất hiện trong website (lưu ý rằng các robot meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số phần của trang web ở chế độ riêng tư
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của sitemap
  • Ngăn các công cụ tìm kiếm index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Dùng lệnh crawl delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
  • Nếu bạn không muốn ngăn các web crawler tiến hành thu thập dữ liệu từ website thì bạn hoàn toàn không cần tạo file robots.txt cho wordpress.

 Cách để kiểm tra website có tệp robots.txt là gì?

Nếu bạn đang băn khoăn không biết website của mình có tệp robots.txt không. Hãy nhập root domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho wordpress rồi.

Bạn có thể kiểm tra website semtek.com.vn có tạo file robots.txt hay không bằng cách như trên:

Nhập root domain (semtek.com.vn) > chèn /robots.txt vào cuối (kết quả là semtek.com.vn/robots.txt) > Nhấn Enter

 

Tìm kiếm liên quan đến robots.txt là gì

  • file robots là gì
  • file robots.txt nằm ở đâu
  • file robots.txt chuẩn
  • disallow robots txt
  • download robots txt
  • robots txt website
  • robots txt provider_name
  • google robots txt

 

Nội dung liên quan:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Tư vấn