robot

[:ru]Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован.

Файл robots.txt должен состоять из таких секций:

User-agent: *
User-agent: Yandex
User-agent: Googlebot
В robots.txt необходимо указать путь к XML карте сайта. Директива является межсекционной, поэтому она может быть размещена в любом месте файла, однако перед ней рекомендуется вставить пустой перевод строки. Запись должна выглядеть так:
Sitemap: http://site.com/sitemap.xml
Для Google  robots.txt:
User-agent: Googlebot
Allow: *.css
Allow: *.js
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: */trackback
Disallow: */feed
Файлы, которые следует закрывать от индексирования.

Страницы поиска. Тут кое-кто может поспорить, так как бывают случаи, когда на сайте используют внутренний поиск именно для создания релевантных страниц. Однако, так поступают далеко не всегда и в большинстве случаев открытые результаты поиска могут наплодить невероятное количество дублей. Поэтому мой вердикт — закрыть.
Корзина и страница оформления/подтверждения заказа. Данная рекомендация актуальна для интернет-магазинов и других коммерческих сайтов, где есть форма заказа. Данные страницы ни в коем случае не должны попадать в индекс ПС.
Фильтры и сравнение товаров. Рекомендация относится к интернет-магазинам и сайтам-каталогам.
Системные каталоги и файлы. Каждый сайт состоит из множества данных — скриптов, таблиц CSS, административной части. Такие файлы следует также ограничить для просмотра роботам.
Страницы регистрации и авторизации. Информация, которая вводится при регистрации или входе на сайт, является конфиденциальной. Поэтому следует избегать индексации подобных страниц, Google это оценит.[:en]The robots.txt file is one of the most important when optimizing any site. Its absence can lead to a high load on the site from the side of search robots and slow indexing and reindexing, and incorrect configuration to the fact that the site completely disappears from search or simply will not be indexed.

The robots.txt file should consist of the following sections:

User-agent: *
User-agent: Yandex
User-agent: Googlebot
In robots.txt, you must specify the path to the XML site map. The directive is an intersection, so it can be placed anywhere in the file, but it is recommended to insert an empty line feed before it. The entry should look like this:
Sitemap: http://site.com/sitemap.xml
Для Google  robots.txt:
User-agent: Googlebot
Allow: *.css
Allow: *.js
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: */trackback
Disallow: */feed

Files that should be closed from indexing.

Search pages. Here, someone can argue, since there are times when the site uses an internal search for creating relevant pages. However, this is not always the case, and in most cases, open search results can produce an incredible number of duplicates. Therefore, my verdict is to close.
Cart and the registration page / order confirmation. This recommendation is relevant for online stores and other commercial sites where there is an order form. These pages should in no case be included in the index PS.

Filters and comparison of goods. The recommendation applies to online shopping and directory sites.
System directories and files. Each site consists of a lot of data — scripts, CSS tables, administrative part. Such files should also be restricted for viewing by robots.
Registration and authorization pages. Information that is entered when you register or enter the site is confidential. Therefore, you should avoid indexing such pages, Google will appreciate it.

[:]

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *