Файл robots.txt — это специальный текстовый файл, который размещается на сайте. Он сообщает поисковым системам, какие страницы или разделы сайта можно индексировать, а какие — нельзя. Это своего рода "инструкция" для роботов поисковиков, чтобы они знали, что им разрешено или запрещено просматривать на вашем сайте. Например, если вы не хотите, чтобы некоторые страницы попадали в поисковые результаты, вы можете указать это в файле robots.txt.

Этот механизм позволяет оптимизировать процесс индексации и защитить конфиденциальные данные от нежелательного доступа. Так вы можете закрыть для индексации страницу с личной информацией пользователей или тестовую версию сайта. Соблюдение инструкций из файла robots.txt является добровольным со стороны поисковиков: добросовестные боты подчиняются этим правилам, тогда как зловредные могут их игнорировать. Поэтому использование этого средства требует внимательности и понимания специфики работы различных поисковых систем.

Главные задачи файла robots.txt

  1. Запрет индексирования конкретных страниц в файле robots.txt помогает скрывать от поисковых ботов те части сайта, которые не должны появляться в результатах поиска. Для запрета используется директива Disallow, указывающая путь к таким разделам.

  2. Указание приоритета для некоторых страниц. Вы можете отметить, какие разделы сайта более важны для индексации, чтобы улучшить SEO-оптимизацию.

  3. Предоставление информации о файле Сайтмап. В robots.txt также можно указать путь к карте сайта, чтобы облегчить поисковым ботам навигацию по вашему веб-ресурсу.

  4. Управление скоростью сканирования. Некоторые поисковики позволяют указывать максимальную скорость сканирования через специальные директивы, что полезно для сайтов с ограниченным серверным ресурсом.

Как создаётся файл robots.txt

В определённых CMS файл robots.txt создается автоматом, тогда как в других системах управления содержимым его приходится формировать вручную. Независимо от способа создания, этот файл всегда нуждается в проверке и, чаще всего, в ручной правке. Стоит учитывать, что единого шаблона для robots.txt не существует, даже если речь идет о сайтах на идентичных платформах, поскольку каждый проект обладает своими особенностями, влияющими на реализацию всех технических аспектов. С развитием проекта разработчикам неизбежно придётся вносить изменения, включая коррекцию файла robots.txt.

Директивы

Директивы в файле robots.txt помогают объяснить поисковым роботам, какие части сайта можно смотреть, а какие — нельзя. Именно эти команды подсказывают поисковикам, какие страницы или разделы разрешено добавлять в поиск, а какие лучше пропустить:

  1. User-agent: Эта команда показывает, для каких поисковых ботов действуют дальнейшие правила. Так, если вы напишете User-agent: *, это означает, что правила распространяются на все поисковики. Если же отметить: User-agent: Googlebot, то эти правила будут действовать только для поисковика Гугл.

  2. Disallow: Команда, которая запрещает роботам заходить на указанные страницы. Например, если написать Disallow: /admin/, боты не смогут зайти в административный раздел сайта.

  3. Allow: Командует разрешить доступ к конкретным страницам, даже если они находятся в запрещённом разделе. Если у вас есть важная страница в закрытой папке, вы можете разрешить её индексирование командой Allow:/private/important-[page.html](page.html).

  4. Sitemap: Эта команда показывает поисковым роботам, где находится карта сайта (sitemap.xml), чтобы они могли легче ориентироваться на вашем сайте и находить нужные страницы.

Таким образом, используя эти директивы, вы можете точно контролировать, какие части вашего сайта видны, а какие остаются скрытыми.

Дополнительные директивы

Существуют поисковые системы, которые поддерживают дополнительные директивы, например:

Crawl-delay: указывает минимальное время между последовательными запросами от поискового робота. Полезно для снижения нагрузки на сервер.

Clean-param: Используется для игнорирования определённых GET-параметров в URL.

Важные моменты

  1. Исключения. Если вы закрыли страницу в robots.txt, она всё равно может появиться в поиске, если на неё ведут ссылки с других сайтов. Но её содержание не будет показываться.

  2. Оптимизация для поисковиков. Правильно составленный Роботс помогает улучшать видимость сайта в поисковиках, предотвращает повторение информации и улучшает организацию вебсайта.

  3. Возможные ошибки. Неправильно написанные команды могут сбивать поисковые системы с толку, поэтому важно следить за правильностью оформления файла.

  4. Регулярные обновления. Файл нужно обновлять по мере изменений на вебсайте, особенно если добавляются новые важные разделы или, наоборот, какие-то из них больше не нужны или удалены.

Рекомендации по использованию

  • При создании сайта важно полностью заблокировать его, чтобы предотвратить попадание нежелательных страниц в процесс добавления сведений в базу данных. 

  • Необходимо защищать персональные данные, которые ни в коем случае не должны появляться в публичном доступе. 

  • Также стоит рассмотреть возможность блокировки отдельных поисковых систем, если, например, на русскоязычном проекте не требуется трафик с Yahoo!, или же на английском ресурсе нецелесообразно привлекать пользователей с Яндекс. 

Чтобы уменьшить нагрузку на сервер, особенно при частом обновлении содержимого и большом количестве страниц, можно установить ограничение частоты сканирования с помощью директивы Crawl-delay: 20. Это позволит замедлить активность поисковых роботов до одного обращения каждые 20 секунд, однако перед применением убедитесь, что выбранная система поддерживает данную директиву.

Что следует избегать при работе с robots.txt

  • Блокирование дублей страниц через robots.txt должно применяться лишь в крайнем случае, когда возможности самой CMS исчерпаны. 

  • Лучше применять 301 редиректы через файл .htaccess, метатеги robots noindex, rel=canonical или страницу 404. 

  • Учтите, что удаление уже проиндексированных страниц через robots.txt невозможно. 

  • Скрытие админпанели с помощью robots.txt может выдать путь к ней потенциальным злоумышленникам, так как этот файл общедоступен. 

Всегда тщательно оценивайте последствия закрытия тех или иных разделов. Например, блокируя папку /wp-content/ в WordPress, вы одновременно ограничиваете индексацию медиафайлов, таких как фотографии и уникальные видеофайлы, что может лишить вас дополнительного трафика.