15.07.2022

Какие страницы нужно скрывать из выдачи и зачем

Индексирование сайта – это процесс, во время которого поисковые системы сканируют веб-страницы ресурса и добавляют их в базы данных. Специальные боты вносят в системы «Яндекс» и Google все данные о сайте — текстовое содержимое страниц, изображения, видеоматериалы и др. Корректное индексирование помогает интернет-пользователям, т.е. потенциальным клиентам быстро находить сайт в выдаче.

В статье мы расскажем, как настраивать индексацию, а также о том, какие страницы следует открывать или закрывать для поисковых роботов, а какие нет.

Зачем ограничивать индексирование страниц

Цель владельца сайта — привести на свой ресурс как можно больше посетителей, а поисковой системе нужно предоставить пользователям релевантную их запросам информацию. Для этого необходимо проиндексировать страницы, которые заинтересуют ЦА и одновременно будут соответствовать требованиям поисковика.

Рассмотрим причины, по которым следует запрещать индексацию отдельных страниц:

Неуникальный контент. Поисковикам важно, чтобы содержимое страниц, которое попадает в базу данных, было уникальным. В противном случае приоритет получает первоисточник, а сайт со скопированным контентом не продвигается в выдаче.

Ограниченный краулинговый бюджет. Любому сайту выделяется лимит на сканирование страниц для индексации. У каждого ресурса индивидуальный краулинговый бюджет. Чтобы лучше продвигаться в выдаче, рекомендуем избавиться от лишних страниц.

Что именно необходимо скрывать от поисковых систем

Если ваш веб-ресурс еще «сырой» и находится на стадии разработки, ограничьте его индексирование. Таким образом поисковики не будут фиксировать некорректные данные. Если сайт давно запущен, но вы точно не знаете, какие страницы лучше исключить из выдачи, воспользуйтесь нашим списком.

PDF и другие документы

На веб-ресурсах часто выкладываются документы, которые связаны с содержимым определенных страниц, например, с текстом политики конфиденциальности. Контролируйте их ранжирование. Если заголовки PDF-файлов оказываются выше страниц по аналогичному запросу, то их лучше закрыть с помощью robots.txt. Так вы предоставите пользователям доступ к более релевантной информации.

Страницы в разработке

Индексация недоработанных страниц снижает позиции сайта. Открывайте для поисковых ботов только оптимизированные страницы с уникальным содержимым. Выполнять настройки нужно в robots.txt.

Зеркала сайта

После создания копии сайта укажите корректное зеркало с помощью 301 редиректа. Это позволит «Яндексу» и Google отличать разные версии веб-ресурса. Поисковики будут понимать, что является оригиналом, а что копией, и исходный сайт сохранит прежние позиции.

Важно: не заменяйте оригинал копией, иначе вы обнулите и возраст, и репутацию сайта.

Страницы для печати

Специфика некоторых сайтов предполагает наличие дополнительных функций, например, печати. Благодаря ей пользователи могут выводить на принтер нужные страницы. Версии для печати создаются через дублирование, из-за чего поисковики часто ставят в приоритет копии, а не оригиналы.

Чтобы избежать таких ситуаций, отключите индексирование страниц для печати с помощью AJAX или файла robots.txt. Также можно воспользоваться мета-тегом <meta name="robots" content="noindex, follow"/>.

Веб-формы и другие элементы

Личный кабинет, форма обратной связи, корзина — обязательные атрибуты большинства современных сайтов. Такие элементы являются важной частью структуры сайта, но при этом они абсолютно бесполезны для поисковиков, поэтому их нужно скрывать.

Служебные страницы

Исключайте из индексации страницы, которые использует администратор сайта (например, формы авторизации), поскольку они не несут важной информации для рядовых пользователей.

Подпишитесь на нас в Telegram

Получайте свежие статьи об интернет-маркетинге и актуальные новости о наших готовых решениях

Персональные данные пользователей

Защита личной информации клиентов — одна из ваших ключевых задач. Закрывайте от индексации данные о платежах, контакты и другие сведения, с помощью которых можно идентифицировать конкретного пользователя.

Страницы с результатами поиска по сайту

Такие страницы полезны для посетителей сайта, но не для поисковиков, так как их содержимое неуникально.

Страницы сортировки

Как и в предыдущем случае, такие страницы нужны только для удобства пользователей. Поисковые системы воспринимают страницы сортировки негативно из-за частичного дублирования контента.

Отдельно рассмотрим пагинацию. Без нее не может функционировать ни один крупный веб-ресурс.

Чтобы понять значение пагинации, рассмотрим пример с папирусными свитками, которыми человечество пользовалось до появления книг. Читать эти длинные листы было неудобно, поскольку записи в них не разделялись на главы и страницы, а шли сплошным текстом. Сайты без пагинации — современный аналог древних свитков.

С помощью пагинации можно разделить большой объем данных на страницы и сделать сайт удобным для пользователей. Ваша задача — настроить атрибуты rel="canonical", rel="prev" и rel="next". Зайдите в Google Search Console, откройте «Параметры URL» и укажите параметры, которые разделяют страницы.

Кроме того, не забывайте закрывать от индексирования лендинги для контекстной рекламы, а также страницы с результатами внутреннего поиска (как и сам поиск) и с UTM-метками.

Что нужно открыть для индексации

Иногда владельцы сайтов по ошибке закрывают важный контент. Избежать таких ситуаций поможет список страниц, которые необходимо оставлять доступными для поисковых роботов:

Копии страниц, которые часто появляются при работе с каталогом, например, при привязке одного товара к нескольким разным категориям. Не торопитесь и не отключайте индексацию дублей без предварительного анализа, сначала проверьте объем трафика. Затем настройте 301 редиректы с непопулярных страниц на популярные и удалите те, которые совсем не эффективны.

Страницы смарт-фильтра, которые помогают увеличить трафик за счет НЧ-запросов. Убедитесь, что вы правильно настроили sitemap.xml, мета-теги и ошибки 404 для отсутствующих страниц.

При соблюдении таких рекомендаций вы сможете значительно продвинуться в выдаче.

Как закрыть страницы от поисковых роботов

Существует несколько способов, с помощью которых можно закрыть страницы от индексации:

работа с файлом robots.txt;
с помощью HTML-кода;
работа на сервере;
через админ-панель WordPress;
с помощью специализированных сервисов.

Рассмотрим каждый из способов отдельно.

Работа с файлом robots.txt

Проще всего закрыть весь ресурс в robots.txt. Именно с этого файла поисковики начинают анализировать сайт. Robots.txt «подсказывает» роботам, какие страницы нужно в первую очередь добавить в индекс, а какие нужно пропустить.

Чтобы найти файл, откройте корневую папку сайта. Если robots.txt отсутствует, то создайте его с помощью текстового редактора и добавьте в нужную директорию.

Если ваш сайт создан на «Битриксе», то автоматически сформированный robots.txt находится в панели администратора. Чтобы изменить файл, зайдите в «Маркетинг», откройте «Поисковую оптимизацию» и выберите «Настройку robots.txt».

Вы увидите две строки:

User-agent: *;
Disallow: /.

Удалите остальные правила, и поисковые роботы не будут анализировать и добавлять в базу данных информацию с сайта.

Как запретить индексацию для «Яндекса»

User-agent: Yandex
Disallow: /.

Чтобы убедиться в корректности настроек откройте «Яндекс.Вебмастер», загрузите robots.txt и пройдите по ссылке https://webmaster.yandex.ru/tools/robotstxt/. В открывшееся поле для проверки УРЛов вставьте несколько ссылок на страницы веб-ресурса. Нажмите «Проверить». Если вы действительно закрыли страницы от роботов «Яндекса», то напротив ссылок высветится «Запрещено правилом /*?*».

Как запретить индексацию для Google

User-agent: Googlebot
Disallow: /

Зайдите в Google Search Console и убедитесь, что напротив ссылок на закрытые страницы отображается надпись «Заблокировано по строке» с командой запрета индексирования.

Как запретить индексацию для остальных поисковиков

Разные поисковые системы используют своих ботов с уникальными названиями. Их можно вносить в robots.txt и задавать соответствующие команды. Имена ботов:

Slurp (Yahoo);
SputnikBot («Спутник»);
MSNBot (Microsoft Network Search).

Как закрыть для ботов отдельные страницы

Чтобы скрыть страницы со служебной информацией — панель администратора, корзину, старые акции и др., используйте команду «Запрет индексации». Директивы приведены в таблице ниже:

Конкретная страница	User-agent: * Disallow: /contact.html
Один раздел	User-agent: * Disallow: /catalog/
Веб-ресурс полностью (кроме конкретного раздела)	User-agent: * Disallow: / Allow: /catalog
Раздел полностью (кроме подраздела)	User-agent: * Disallow: /product Allow: /product/auto
Внутренний поиск	User-agent: * Disallow: /search
Админ-панель	User-agent: * Disallow: /admin

Как закрыть для поисковиков другие данные

С помощью robots.txt вы можете полностью или выборочно закрыть от ботов файлы, папки, скрипты, UTM-метки и изображения. Директивы для запрета индексации приведены в таблице ниже:

Файлы определенного типа	User-agent: * Disallow: /*.jpg
Папки	User-agent: * Disallow: /images/
Папка полностью (кроме одного файла)	User-agent: * Disallow: /images/ Allow: file.jpg
Скрипты	User-agent: * Disallow: /plugins/*.js
UTM-метки	User-agent: * Disallow: *utm=
UTM-метки для ботов «Яндекса»	Clean-Param: utm_source&utm_medium&utm_campaign

Как запретить индексирование картинок

Чтобы отключить индексацию изображений, пропишите директивы:

User-Agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif

Как запретить индексацию поддомена

Обычно поддомены обладают собственным robots.txt — вы можете обнаружить его в корневой папке. Пропишите в файле следующее:

User-agent: *
Disallow: /

С помощью HTML-кода

Вы можете запретить индексацию с помощью мета-тегов в блоке <head>. Вам понадобится атрибут content. С его помощью можно:

разрешить индексирование страницы;
полностью запретить индексацию страницы за исключением ссылок;
разрешить индексирование ссылок;
включить индексацию всей страницы, кроме ссылок;
разрешить индексирование всей страницы.

Чтобы указать бота, измените атрибут name, — yandex и googlebot для «Яндекса» и Google соответственно.

Рассмотрим, как выглядит запрет индексирования страницы вместе с ссылками для Google:

<html>
<head>
<meta name="googlebot" content="noindex, nofollow" />
</head>
<body>...</body>
</html>.

Важно: использовать тег Meta Refresh, который также запрещает индексирование для Google, не рекомендуется.

Работа на сервере

Иногда поисковики игнорируют запрет на индексирование. В таком случае вы можете провести работы на сервере и скрыть данные. Найдите в корневой директории файл .htaccess и добавьте коды:

SetEnvIfNoCase User-Agent "^Googlebot" search_bot для Google;
SetEnvIfNoCase User-Agent "^Yandex" search_bot для «Яндекса».

Через админ-панель WordPress

Если сайт создан на движке WordPress, то отключить индексацию будет просто.

Как полностью закрыть сайт

Зайдите в админ-панель, через левое меню откройте «Настройки», выберите «Чтение» и поставьте галочку напротив «Попросить поисковые системы не индексировать сайт». Затем сохраните изменения, и CMS автоматически откорректирует robots.txt.

Как закрыть от ботов отдельные страницы

Установите плагин Yoast SEO, откройте страницу для редактирования, прокрутите ее вниз и в «Дополнительно» пропишите «Нет».

С помощью специализированных сервисов

Чтобы скрыть конкретную страницу, зайдите в Google Search Console, откройте «Индекс Google» и удалите ненужный URL. Помните, что запрет на индексацию начинает действовать не сразу, а через некоторое время.

То же самое можно сделать в «Яндекс.Вебмастере». Убедитесь, что robots.txt составлен корректно. Откройте «Результаты анализа robots.txt» — там должны быть список директив. Они будут учитываться при индексации. Чтобы проверить, разрешено ли индексирование конкретных страниц, укажите их адреса в поле «Список URL». Кроме того, вы можете проконтролировать изменения robots.txt, а также скачать нужную версию.

Следуйте рекомендациям, и настройка индексации не будет вызывать у вас затруднений.

#SEO

#Интернет-маркетинг