Как использовать robots.txt

Стандарт исключений для роботов, более известный среди специалистов по SEO в качестве файла robots.txt, был создан в целях предоставления поисковым роботам на этапе сканирования сайта информацию о скрытых папках и документах. Протокол можно использовать в целях установки запрета на индексацию и ранжирование веб-страниц. Прежде чем пройтись по всем URL-адресам, поисковый робот посещает корневую папку, где размещен robots.txt с прописанными ранее исключениями. Настройка конфигурации файла влияет на показатель эффективности сканирования, поскольку владелец сайта может умышленно скрыть некоторые страницы от робота.

Основные директивы robots.txt:robots

  1. Allow/Disallow – разрешает/запрещает доступ к определенной части сайта (странице, папке, каталогу).
  2. User-Agent – определяет поискового робота, по отношению к которому будут применяться прописанные правила.
  3. Host – указывает на зеркало для склеивания нескольких веб-ресурсов постраничным 301-м редиректом.
  4. Crawl-delay – обеспечивает ограничение скорости сканирования для ускорения загрузки страниц.
  5. Visit-time – прописывает оптимальное время для сканирования сайта роботами.
  6. Request-rate – указывает количество страниц, которые можно загрузить за определенный разработчиком промежуток времени.

К основному синтаксису текстового файла robots следует отнести различные обозначения, включая символ хеш (#) для игнорирования строк, знак доллара ($) для обозначения конца строки и звездочку (*) для любой последовательности символов. Ввод следует выполнять на латинице, не забывая о том, что данные чувствительны к регистру. Между группами, включающими обозначение User-агента и Disallow, необходимо оставить пустую строку. Предоставленные стандартом исключений будут доступны только для указанных в файле роботов.

Правильная настройка robots.txt позволит:

  1. Дать ссылку на действующую карту сайта (Sitemap).
  2. Запретить индексацию папки.
  3. Установить полный запрет на индексацию и ранжирование всего сайта.
  4. Скрыть отдельные станицы и файлы от поисковых роботов.
  5. Разрешить конкретному роботу посещать определенную веб-страницу.
  6. Защитить сайт, страницу или папку от сканирования конкретным роботом.

Расширенный стандарт исключений для роботов считается неотъемлемым компонентом технической оптимизации сайта. Возникновение существенных проблем с индексацией часто вызвано ошибками во время заполнения robots.txt. На этапе осуществления веб-аудита профессионалы, приступающие к внутренней оптимизации, первым делом проверяют именно состояние отмеченного файла. Правильная настройка позволит существенно ускорить процесс индексации, обеспечив также преимущества для ранжирования. Вручную прописанный запрет на сканирование рассматривается исключительно в качестве рекомендации, поэтому некоторые поисковые роботы его игнорируют.

Цели использования директив robots.txt:

  1. Гибкая настройка веб-площадки.
  2. Закрытие части сайта от индексации и попадания в список поисковой выдачи.
  3. Снижение нагрузки на сайт путем ограничения времени пребывания поисковых роботов на отдельных страницах.
  4. Ограничение доступа к некоторым из страниц на этапе разработки сайта.
  5. Отказ от использования отдельных поисковых систем для продвижения.

Как только файл robots.txt будет тщательно изменен с учетом новых настроек, он исключит указанные страницы из списка для сканирования. В результате поисковые системы откажутся от индексирования файлов, папок или ссылок. Чтобы повысить шансы отказа от индексации, следует воспользоваться атрибутом noindex для метатега robots. Из списка поисковой системы страница выпадет при следующем посещении URL-адреса роботом. Правильно настроенный файл robots.txt оптимизаторы используют для скрытия бесполезных в процессе продвижения форм регистрации и результатов поиска по сайту.

В целях проверки состояния стандарта исключений для роботов можно воспользоваться специализированными инструментами, которые предоставляются поисковыми системами и независимыми разработчиками. Мониторинг придется проводить на регулярной основе. Устранить ошибки можно в течение пары минут, внеся правки и новые настройки. Указанная конфигурация вступит в силу после очередного посещения сайта поисковым ботом.