Для управления страницами сайта, индексируемыми поисковым роботом в корневой папке любого сайта находится файл robots.txt. Данный файл способен запрещать поисковикам двигаться по страницам сайта, индексировать его содержимое.
Поисковые системы проверяют наличие данного файла, поскольку поисковые роботы должны следовать директивам, указанным в нем. Раскрутка сайта, таким образом, предполагает использование такого файла, как robots.txt. Отказываться от использования указанного файла нельзя, несмотря на требуемые для этого специфические знания.
Для проверки наличия файла нужно набрать адрес вида: http://имя_вашего_сайта/ robots.txt. При отсутствии – поместить файл в корневую папку веб-ресурса. Однако неграмотно составленный файл может ограничить роботу доступ к полезной, уникальной информации, сократить количество индексируемого контента.
Проще всего закрыть индексацию роботами, поместив «Disallow: /» в robots.txt. Рассматриваемую конструкцию используют при создании веб-ресурсов во избежание индексирования недоделанных страниц поисковиком.
Также можно запретить индексировать выбранную страницу, поместив в заголовке страницы веб-ресурса мета-тег «robots». Он запретит индексирование либо следование по ссылкам на странице.
А используя мета тег noindex, можно запретить к индексации выбранные отдельные неуникальные фрагменты страницы. С ним работать несложно – всего лишь требуется заключить в тег выбранные фрагменты. Однако перебарщивать тоже нельзя, поскольку несвязный текст будет идентифицироваться роботами как спам.