File Robots.txt là gì? Hướng dẫn cài đặt File Robots.txt

File Robots.txt là gì? Hướng dẫn cài đặt File Robots.txt
Để tối ưu onpage của một trang nào đó thì cần quan tâm đến nhiều yếu tố khác nhau, trong đó thì file Robots.txt đươc xem là quan trọng và hỗ trợ việc tìm kiếm thông tin của các công cụ tìm kiếm.

Vậy bạn đã biết File Robots.txt là gì chưa? 

Đây chính là một file đặt trong thu mục Root, một tệp tin chứa nội dung hoàn toàn đều là dạng text chứ không phải là dạng HTML.
Tệp tin này hỗ trợ người quản trị Web chỉ định các thành phần tìm kiếm cho các bot của công cụ tìm kiếm và các phần bot bị giới hạn. Nói cách khác thông qua tệp tin này, các webmaster linh hoạt hơn trong việc cho hay không cho Googlebot của các công cụ tìm kiếm index một phần bất kì nào đó trong websiet của bạn.

Ví dụ như một số thông tin không hay bạn không muốn cho các bot đánh chỉ mục và pulic thì hãy thiết lập lại trong file robots.txt cho website.

Cách cài đặt file robots.txt
Tên file Robots.txt có cấu trúc rất đơn giản , đặt ngay sau tên miền ví dụ: http://seogiarehanoi.com/robots.txt), là một file văn bản được tạo bởi công cụ Notepad, người quản trị website có thể dễ dàng tùy chỉnh dạng tập tin này để phù hợp với website của mình và dễ dàng cho việc seo từ khóa.

cach-tao-file-robot-txt
Bạn có thể tham khảo cấu trúc của file Robots.txt dưới đây.
User-agent: *
Disallow: /audio/
Disallow: /login.html/
User-agent: là những đối tượng bot được truy cập vào website của bạn. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image(Google), Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)…Nếu sử dụng dấu “*” thì đồng nghĩa với việc bạn cho phép tất cả các bot đều có thể truy cập vào.
Disallow: Với ý nghĩa là chặn không cho bot truy cập vào một phần nào đó của website
Disallow: /audio/ nghĩa là chặn không cho truy cập vào thư mục audio,
Disallow: /login.html/ -chặn bot truy cập vào trang login.html.
Những cú pháp thông dụng của file robots.txt
-Khóa toàn bộ site dùng lệnh: Disallow: /
-Chặn 1 thư mục và mọi thứ nằm trong nó: Disallow: /audio/
-Chặn 1 trang: Disallow: /admin.html
-Loại bỏ 1 hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /images/hot.jpg
-Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /

-Chặn 1 file hình bất kỳ, ví dụ .jpg
User-agent: Googlebot
Disallow: /*.jpg$
 
Sau khi tạo được file robots.txt bằng công cụ Notepad thì bạn đặt nó vào file thư mục gốc trong hosting của trang web, hãy đặt tương đương với file index.html của website.

Add Comment

Your email address will not be published. Required fields are marked *