Индексация сайта robots.txt, способы закрыть от индексации
Последнее обновление: 08 ноября 2022 года
30903
Время прочтения: 6 минут
Тэги: Яндекс, Google
О чем статья?
- Зачем закрывать сайт от поисковых роботов?
- Как проверить, закрыт сайт от индексации или нет? robots.txt
- Как закрыть сайт от индексации?
- Какие ошибки встречаются при записи файла robots.txt?
Кому будет полезна статья?
- Веб-разработчикам.
- Контент-редакторам.
- Оптимизаторам.
- Администраторам и владельцам сайтов.
Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.
Зачем закрывать сайт от поисковых роботов?
Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.
Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.
В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразиться на его рейтинге.
Мнение эксперта
Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:
«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».
Как проверить, закрыт сайт от индексации или нет?
Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.
В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.
Как закрыть сайт от индексации?
Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.
Запрет индексации всего сайта
Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.
Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
Disallow: /
Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.
Запрет на индексацию разделов и страниц
Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.
- Поисковым роботам доступны все разделы, кроме каталога:
User-agent: *
Disallow: /catalog - Поисковым роботам доступны все страницы, кроме контактов:
User-agent: *
Disallow: /contact.html - Поисковым роботам закрыт весь сайт, кроме одного раздела:
User-agent: *
Disallow: /
Allow: /catalog - Поисковым роботам закрыт весь раздел, кроме одного подраздела:
User-agent: *
Disallow: /product
Allow: /product/auto
Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.
Как скрыть от индексации ссылки?
Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:
- в html-коде страницы указать метатег robots с директивой nofollow;
- вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.
Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.
Проверь своего подрядчика
Если работа SEO-подрядчика не дает ожидаемых результатов, мы предлагаем провести аудит текущего поискового продвижения. Наша экспертиза поможет выявить существующие проблемы.
Какие ошибки встречаются при записи файла robots.txt?
Если robots. txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:
- Неверные (перепутанные) значения директив.
User-agent: /
Disallow: Yandex
Правильно:
User-agent: Yandex
Disallow: / - Указание нескольких URL в одной директиве.
Неправильно:
Disallow: /admin/ /tags/ /images/
Правильно:
Disallow: /admin/
Disallow: /tags/
Disallow: /images/ - Пустое значение User-agent.
Неправильно:
User-agent:
Disallow: /
Правильно:
User-agent: *
Disallow: / - Некорректный формат директивы Disallow.
Неправильно: User-agent: Yandex
Disallow: admin
Правильно:
User-agent: Yandex
Disallow: /admin/
Проверить файл robots. txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».
Выводы
- Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
- Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
- Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
- Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
- После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.
Статья
Что из англоязычного SEO можно применять в Рунете?
#SEO, #Google
СтатьяКейс RU-CENTER: выстроили работу с упоминаниями и снизили долю негатива в выдаче
#Яндекс, #Google
СтатьяЯндекс обновил алгоритмы: как улучшить ранжирование сайта?
#SEO, #Яндекс
Статью подготовили:
Прокопьева Ольга. Работает копирайтером, в свободное время пишет прозу и стихи. Ближайшие профессиональные цели — дописать роман и издать книгу.
Анастасия Курдюкова, руководитель группы оптимизаторов «Ашманов и партнеры», опытный специалист по SEO-оптимизации, ведущая вебинаров для клиентов компании.
Теги: SEO, Яндекс, Google
Robots.txt — Как создать правильный robots.txt
Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.
Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.