При оптимизации сайтов нужно создать и настроить файл robots.txt. Без него нагрузка на сайт со стороны поисковых роботов(краулеров) значительно увеличится, а скорость индексации и переиндексации упадет. Неправильная настройка файла чревата тем, что сайт будет индексироваться полностью. Под индексацию попадут лид-формы, страницы печати и прочие нежелательные данные.
Чтобы правильно настроить robots.txt, нужно разобраться во всех нюансах. Поговорим о них в статье.
Поисковые роботы в любом случае индексируют сайт: это не зависит от наличия или отсутствия robots.txt. Если он есть, боты учитывают прописанные в файле правила, однако поведение краулеров отличается. Некоторые роботы не учитывают определенные правила, для других важны правила, которые обозначаются именно для них. Например, YandexNews вместе с GoogleBot игнорируют правила Host и Crawl-Delay. YandexVideoParser и YandexDirect безразличны общие правила в robots, но обоим важны специфичные.
Роботы, которые скачивают с сайта контент, оказывают на него максимальную нагрузку. Чтобы ее снизить и одновременно ускорить скачивание, нужно указать, что следует индексировать, а что нет. Кроме того, лучше обозначить временные промежутки скачивания и запретить обход ненужных страниц. В их числе — «ответственные» за баннеры и капчу скрипты json и ajax, всплывающие формы, поисковые функции, корзина для покупок, админка и личный кабинет.
Для большинства краулеров также стоит отключить индексацию всех CSS и JS. Исключение — GoogleBot и Yandex. Им файлы нужны для ранжирования сайта и анализа его удобства.
В линейке готовых корпоративных сайтов и интернет-магазинов IntecUniverse файл уже создан, остается его настроить. Перейдите в административной части сайта в раздел Сервисы->
Поисковая оптимизация->Настройка robots.txt.
Если данный раздел закрыт, обратитесь в техническую поддержку сайта. Сам файл Robots.txt находится в корневом разделе сайта. Структура сайта-> Файлы и папки->robots.txt.
Адресом при этом будет sait.ru/robots.txt. Поисковые системы обращаются к robots.txt по URL /robots.txt.
Найдите необходимый файл robots.txt. и выберите «Редактировать как PHP»
Затем вы прописываете необходимые директивы.
Директивы — это свод правил для поисковых роботов. Не каждая поисковая система или бот поддерживает те или иные директивы. Лучше не действовать по стандарту, а разобраться, как главные роботы воспринимают определенные правила.
Теперь нужно рассмотреть директивы по порядку.
User-agent
Основная директива, которая решает, для каких краулеров действуют дальнейшие правила.
Для всех поисковых роботов:
User-agent: *
Для определенного бота:
User-agent: Yandex
Примечательно, что регистр символов в этом файле ни на что не влияет, поэтому юзер-агент для «Яндекса» можно записать и так: user-agent: yandex.
В таблице ниже приведены юзер-агенты разных поисковых систем.
Бот |
Функция |
|
|
Googlebot |
основной индексирующий робот Google |
Googlebot-News |
Google Новости |
Googlebot-Image |
Google Картинки |
Googlebot-Video |
видео |
Mediapartners-Google |
Google AdSense, Google Mobile AdSense |
Mediapartners |
Google AdSense, Google Mobile AdSense |
AdsBot-Google |
проверка качества целевой страницы |
AdsBot-Google-Mobile-Apps |
Робот Google для приложений |
«Яндекс» |
|
YandexBot |
основной индексирующий робот «Яндекса» |
YandexImages |
«Яндекс.Картинки» |
YandexVideo |
«Яндекс.Видео» |
YandexMedia |
мультимедийные данные |
YandexBlogs |
робот поиска по блогам |
YandexAddurl |
робот, обращающийся к странице при добавлении ее через форму «Добавить URL» |
YandexFavicons |
робот, индексирующий пиктограммы сайтов (favicons) |
YandexDirect |
«Яндекс.Директ» |
YandexMetrika |
«Яндекс.Метрика» |
YandexCatalog |
«Яндекс.Каталог» |
YandexNews |
«Яндекс.Новости» |
YandexImageResizer |
робот мобильных сервисов |
Bing |
|
Bingbot |
основной индексирующий робот Bing |
Yahoo! |
|
Slurp |
основной индексирующий робот Yahoo! |
Mail.Ru |
|
Mail.Ru |
основной индексирующий робот Mail.Ru |
Rambler |
|
StackRambler |
Ранее был основным ботом-индексатором Rambler. В июне 2011 года поддержка собственной поисковой системы прекращена. Сейчас Rambler применяет технологию «Яндекса». |
Директива Disallow позволяет закрыть от индексирования страницы сайта. С помощью Allow можно принудительно индексировать страницы и разделы. Для умелого обращения с директивами необходимо разбираться в дополнительных операторах и понимать, как ими пользоваться. Обратите внимание на символы *, # и $:
* — любое количество символов либо их отсутствие. Можно не ставить звездочку в конце строки, поскольку она находится там по умолчанию.
$ обозначает, что символ перед ним должен быть последним.
# — комментарий, поисковые роботы не учитывают все, что прописано после этого символа.
Disallow: *?s=
Disallow: /category/$
От индексации будут закрыты следующие ссылки:
http://sait.ru/page/?s=keyword
Для индексации будут открыты следующие ссылки:
http://sait.ru/category-folder/
Обратите внимание, как выполняются вложенные правила. Порядок записи директив не важен. То, какие именно директивы указаны, влияет на наследование правил: что должно открываться или закрываться от индексации. Простой пример:
Allow: *.css
Disallow: /template/
http://sait.ru/template — закрыто от индексирования
http://sait.ru/template/style.css — закрыто от индексирования
http://sait.ru/theme/style.css — открыто для индексирования
http://sait.ru/ style.css — открыто для индексирования
Иногда все файлы .css должны оставаться открытыми. В таком случае этот параметр прописывают для каждой закрытой папки. Не имеет значения, в каком порядке записаны директивы.
Директива, которая указывает «дорогу» к файлу Sitemap. URL прописывают так же, как в адресной строке.
Пример:
Sitemap: http://sait.ru/sitemap.xml
Директиву можно указать в любом месте robots.txt. Здесь не нужна привязка к определенному юзер-агенту. При необходимости можно прописать сразу несколько директив.
Директива, которая указывает на главное зеркало веб-сайта (как правило, с www или без www). Зеркало прописывается без http://, но с https://. При необходимости указывают порт. Только краулеры Mail.ru и «Яндекса» поддерживают Host. Другие роботы вместе с GoogleBot не учитывают эту директиву, которую прописывают один раз.
С помощью этой директивы определяют интервал между скачиваниями ботом страниц сайта. Crawl-delay поддерживается поисковыми роботами «Яндекса», Mail.Ru, Bing, Yahoo. Интервал задают либо как целое число, либо как дробную единицу с точкой-разделителем. Время устанавливают в секундах.
Пример:
Crawl-delay: 4
Пример:
Crawl-delay: 0.6
Сайты с небольшой нагрузкой не нуждаются в такой директиве. Она требуется, если из-за индексирования превышается лимит сайта или возникают сбои в работе сервера. Многое зависит от значения — чем оно выше, тем меньшее количество страниц загружает робот за одну сессию. Для каждого ресурса значение определяется индивидуально. Лучше начинать со значений 0.1, 0.2, 0.5 и постепенно их повышать. У некоторых поисковых систем значение для результатов продвижения ниже, чем у других. Так, для роботов Bing и Yahoo можно сразу выставить большее значение, чем у бота «Яндекса».
Пример 1:
Clean-param: author_id http://site.ru/articles/
http://site.ru/articles/?author_id=267539 - индексироваться не будет
Пример 2:
Clean-param: author_id&sid http://site.ru/articles/
http://site.ru/articles/?author_id=267539&sid=0995823627 - индексироваться не будет
«Яндекс» рекомендует применять Clean-param, чтобы не учитывать UTM-метки и идентификаторы сессий: Clean-Param: utm_source&utm_medium&utm_campaign:
Помимо перечисленных выше параметров, в перечне есть и другие. Расширенная спецификация предлагает такие директивы как Request-rate, Visit-time и пр. В данный момент их использование не особо целесообразно, поскольку они не поддерживаются основными поисковиками.
В чем заключается смысл этих правил:
-Request-rate: 1/4 — за 4 секунды загружается не больше 1 страницы;
-Visit-time: 0500-0745 — страницы загружаются только между 5 и 7:45 утра по Гринвичу.
Иногда нужно закрыть ресурс для всех поисковых роботов. Чтобы сделать это, надо прописать директивы:
User-agent:
* Disallow: /
В РФ и странах СНГ значительная доля трафика принадлежит «Яндексу» и Google, поэтому директивы нужно прописывать для всех роботов и отдельно для двух гигантов.
Чтобы правильно настроить файл, многое придется закрыть от индексирования. Лучше закрывать от индексации в такой последовательности:
Пример
# Пример файла robots.txt для настройки гипотетического сайта https://site.ru
User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 5
User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 0.5
Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru
Корректность файла проверяют инструментами «Яндекса» и Google так:
1. В Google Search Console необходимо открыть «Сканирование» и выбрать инструмент проверки robots.txt.
2. В «Яндекс.Вебмастере» нужно открыть «Инструменты» и выбрать «Анализ robots.txt».
Владельцы сайтов, как правило, допускают несколько распространенных ошибок:
В robots.txt могут быть указаны только:
Allow: *.css;
Allow: *.js;
Allow: *.png;
Allow: *.jpg;
Allow: *.gif.
При этом css, js, jpg и прочие закрыты в ряде директорий другими правилами.
Эта информация поможет вам настроить robots.txt.