Индексирование сайта – это процесс, во время которого поисковые системы сканируют веб-страницы ресурса и добавляют их в базы данных. Специальные боты вносят в системы «Яндекс» и Google все данные о сайте — текстовое содержимое страниц, изображения, видеоматериалы и др. Корректное индексирование помогает интернет-пользователям, т.е. потенциальным клиентам быстро находить сайт в выдаче.
В статье мы расскажем, как настраивать индексацию, а также о том, какие страницы следует открывать или закрывать для поисковых роботов, а какие нет.
Цель владельца сайта — привести на свой ресурс как можно больше посетителей, а поисковой системе нужно предоставить пользователям релевантную их запросам информацию. Для этого необходимо проиндексировать страницы, которые заинтересуют ЦА и одновременно будут соответствовать требованиям поисковика.
Рассмотрим причины, по которым следует запрещать индексацию отдельных страниц:
Если ваш веб-ресурс еще «сырой» и находится на стадии разработки, ограничьте его индексирование. Таким образом поисковики не будут фиксировать некорректные данные. Если сайт давно запущен, но вы точно не знаете, какие страницы лучше исключить из выдачи, воспользуйтесь нашим списком.
На веб-ресурсах часто выкладываются документы, которые связаны с содержимым определенных страниц, например, с текстом политики конфиденциальности. Контролируйте их ранжирование. Если заголовки PDF-файлов оказываются выше страниц по аналогичному запросу, то их лучше закрыть с помощью robots.txt. Так вы предоставите пользователям доступ к более релевантной информации.
Индексация недоработанных страниц снижает позиции сайта. Открывайте для поисковых ботов только оптимизированные страницы с уникальным содержимым. Выполнять настройки нужно в robots.txt.
После создания копии сайта укажите корректное зеркало с помощью 301 редиректа. Это позволит «Яндексу» и Google отличать разные версии веб-ресурса. Поисковики будут понимать, что является оригиналом, а что копией, и исходный сайт сохранит прежние позиции.
Важно: не заменяйте оригинал копией, иначе вы обнулите и возраст, и репутацию сайта.
Специфика некоторых сайтов предполагает наличие дополнительных функций, например, печати. Благодаря ей пользователи могут выводить на принтер нужные страницы. Версии для печати создаются через дублирование, из-за чего поисковики часто ставят в приоритет копии, а не оригиналы.
Чтобы избежать таких ситуаций, отключите индексирование страниц для печати с помощью AJAX или файла robots.txt. Также можно воспользоваться мета-тегом <meta name="robots" content="noindex, follow"/>.
Личный кабинет, форма обратной связи, корзина — обязательные атрибуты большинства современных сайтов. Такие элементы являются важной частью структуры сайта, но при этом они абсолютно бесполезны для поисковиков, поэтому их нужно скрывать.
Исключайте из индексации страницы, которые использует администратор сайта (например, формы авторизации), поскольку они не несут важной информации для рядовых пользователей.
Подпишитесь на нас в Telegram
Получайте свежие статьи об интернет-маркетинге и актуальные новости о наших готовых решениях
Защита личной информации клиентов — одна из ваших ключевых задач. Закрывайте от индексации данные о платежах, контакты и другие сведения, с помощью которых можно идентифицировать конкретного пользователя.
Такие страницы полезны для посетителей сайта, но не для поисковиков, так как их содержимое неуникально.
Как и в предыдущем случае, такие страницы нужны только для удобства пользователей. Поисковые системы воспринимают страницы сортировки негативно из-за частичного дублирования контента.
Отдельно рассмотрим пагинацию. Без нее не может функционировать ни один крупный веб-ресурс.
Чтобы понять значение пагинации, рассмотрим пример с папирусными свитками, которыми человечество пользовалось до появления книг. Читать эти длинные листы было неудобно, поскольку записи в них не разделялись на главы и страницы, а шли сплошным текстом. Сайты без пагинации — современный аналог древних свитков.
С помощью пагинации можно разделить большой объем данных на страницы и сделать сайт удобным для пользователей. Ваша задача — настроить атрибуты rel="canonical", rel="prev" и rel="next". Зайдите в Google Search Console, откройте «Параметры URL» и укажите параметры, которые разделяют страницы.
Кроме того, не забывайте закрывать от индексирования лендинги для контекстной рекламы, а также страницы с результатами внутреннего поиска (как и сам поиск) и с UTM-метками.
Иногда владельцы сайтов по ошибке закрывают важный контент. Избежать таких ситуаций поможет список страниц, которые необходимо оставлять доступными для поисковых роботов:
Копии страниц, которые часто появляются при работе с каталогом, например, при привязке одного товара к нескольким разным категориям. Не торопитесь и не отключайте индексацию дублей без предварительного анализа, сначала проверьте объем трафика. Затем настройте 301 редиректы с непопулярных страниц на популярные и удалите те, которые совсем не эффективны.
Страницы смарт-фильтра, которые помогают увеличить трафик за счет НЧ-запросов. Убедитесь, что вы правильно настроили sitemap.xml, мета-теги и ошибки 404 для отсутствующих страниц.
При соблюдении таких рекомендаций вы сможете значительно продвинуться в выдаче.
Существует несколько способов, с помощью которых можно закрыть страницы от индексации:
Рассмотрим каждый из способов отдельно.
Проще всего закрыть весь ресурс в robots.txt. Именно с этого файла поисковики начинают анализировать сайт. Robots.txt «подсказывает» роботам, какие страницы нужно в первую очередь добавить в индекс, а какие нужно пропустить.
Чтобы найти файл, откройте корневую папку сайта. Если robots.txt отсутствует, то создайте его с помощью текстового редактора и добавьте в нужную директорию.
Если ваш сайт создан на «Битриксе», то автоматически сформированный robots.txt находится в панели администратора. Чтобы изменить файл, зайдите в «Маркетинг», откройте «Поисковую оптимизацию» и выберите «Настройку robots.txt».
Вы увидите две строки:
Удалите остальные правила, и поисковые роботы не будут анализировать и добавлять в базу данных информацию с сайта.
User-agent: Yandex
Disallow: /.
Чтобы убедиться в корректности настроек откройте «Яндекс.Вебмастер», загрузите robots.txt и пройдите по ссылке https://webmaster.yandex.ru/tools/robotstxt/. В открывшееся поле для проверки УРЛов вставьте несколько ссылок на страницы веб-ресурса. Нажмите «Проверить». Если вы действительно закрыли страницы от роботов «Яндекса», то напротив ссылок высветится «Запрещено правилом /*?*».
User-agent: Googlebot
Disallow: /
Зайдите в Google Search Console и убедитесь, что напротив ссылок на закрытые страницы отображается надпись «Заблокировано по строке» с командой запрета индексирования.
Разные поисковые системы используют своих ботов с уникальными названиями. Их можно вносить в robots.txt и задавать соответствующие команды. Имена ботов:
Чтобы скрыть страницы со служебной информацией — панель администратора, корзину, старые акции и др., используйте команду «Запрет индексации». Директивы приведены в таблице ниже:
Конкретная страница |
User-agent: * |
Один раздел |
User-agent: * |
Веб-ресурс полностью (кроме конкретного раздела) |
User-agent: * |
Раздел полностью (кроме подраздела) |
User-agent: * |
Внутренний поиск |
User-agent: * |
Админ-панель |
User-agent: * |
С помощью robots.txt вы можете полностью или выборочно закрыть от ботов файлы, папки, скрипты, UTM-метки и изображения. Директивы для запрета индексации приведены в таблице ниже:
Файлы определенного типа |
User-agent: * |
Папки |
User-agent: * |
Папка полностью (кроме одного файла) |
User-agent: * |
Скрипты |
User-agent: * |
UTM-метки |
User-agent: * |
UTM-метки для ботов «Яндекса» |
Clean-Param: utm_source&utm_medium&utm_campaign |
Чтобы отключить индексацию изображений, пропишите директивы:
User-Agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif
Обычно поддомены обладают собственным robots.txt — вы можете обнаружить его в корневой папке. Пропишите в файле следующее:
User-agent: *
Disallow: /
Вы можете запретить индексацию с помощью мета-тегов в блоке <head>. Вам понадобится атрибут content. С его помощью можно:
Чтобы указать бота, измените атрибут name, — yandex и googlebot для «Яндекса» и Google соответственно.
Рассмотрим, как выглядит запрет индексирования страницы вместе с ссылками для Google:
<html>
<head>
<meta name="googlebot" content="noindex, nofollow" />
</head>
<body>...</body>
</html>.
Важно: использовать тег Meta Refresh, который также запрещает индексирование для Google, не рекомендуется.
Иногда поисковики игнорируют запрет на индексирование. В таком случае вы можете провести работы на сервере и скрыть данные. Найдите в корневой директории файл .htaccess и добавьте коды:
Если сайт создан на движке WordPress, то отключить индексацию будет просто.
Зайдите в админ-панель, через левое меню откройте «Настройки», выберите «Чтение» и поставьте галочку напротив «Попросить поисковые системы не индексировать сайт». Затем сохраните изменения, и CMS автоматически откорректирует robots.txt.
Установите плагин Yoast SEO, откройте страницу для редактирования, прокрутите ее вниз и в «Дополнительно» пропишите «Нет».
Чтобы скрыть конкретную страницу, зайдите в Google Search Console, откройте «Индекс Google» и удалите ненужный URL. Помните, что запрет на индексацию начинает действовать не сразу, а через некоторое время.
То же самое можно сделать в «Яндекс.Вебмастере». Убедитесь, что robots.txt составлен корректно. Откройте «Результаты анализа robots.txt» — там должны быть список директив. Они будут учитываться при индексации. Чтобы проверить, разрешено ли индексирование конкретных страниц, укажите их адреса в поле «Список URL». Кроме того, вы можете проконтролировать изменения robots.txt, а также скачать нужную версию.
Следуйте рекомендациям, и настройка индексации не будет вызывать у вас затруднений.