Разное

Роботс тхт: Директива User-agent — Вебмастер. Справка

23.12.2022

Содержание

Индексация сайта robots.txt, способы закрыть от индексации

Последнее обновление: 08 ноября 2022 года

30903

Время прочтения: 6 минут

Тэги: Яндекс, Google

О чем статья?

  • Зачем закрывать сайт от поисковых роботов?
  • Как проверить, закрыт сайт от индексации или нет? robots.txt
  • Как закрыть сайт от индексации?
  • Какие ошибки встречаются при записи файла robots.txt?

Кому будет полезна статья?

  • Веб-разработчикам.
  • Контент-редакторам.
  • Оптимизаторам.
  • Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразиться на его рейтинге.

Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».


Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.

Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта


Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:

User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages

Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц


Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

  1. Поисковым роботам доступны все разделы, кроме каталога:
    User-agent: *
    Disallow: /catalog
  2. Поисковым роботам доступны все страницы, кроме контактов:
    User-agent: *
    Disallow: /contact.html
  3. Поисковым роботам закрыт весь сайт, кроме одного раздела:
    User-agent: *
    Disallow: /
    Allow: /catalog
  4. Поисковым роботам закрыт весь раздел, кроме одного подраздела:
    User-agent: *
    Disallow: /product
    Allow: /product/auto
    1. Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

      Как скрыть от индексации ссылки?


      Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

  • в html-коде страницы указать метатег robots с директивой nofollow;
  • вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.

Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.

Проверь своего подрядчика

Если работа SEO-подрядчика не дает ожидаемых результатов, мы предлагаем провести аудит текущего поискового продвижения. Наша экспертиза поможет выявить существующие проблемы.

Какие ошибки встречаются при записи файла robots.txt?

Если robots. txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:

  1. Неверные (перепутанные) значения директив.
    Неправильно:
    User-agent: /
    Disallow: Yandex
    Правильно:
    User-agent: Yandex
    Disallow: /
  2. Указание нескольких URL в одной директиве.
    Неправильно:
    Disallow: /admin/ /tags/ /images/
    Правильно:
    Disallow: /admin/
    Disallow: /tags/
    Disallow: /images/
  3. Пустое значение User-agent.
    Неправильно:
    User-agent:
    Disallow: /
    Правильно:
    User-agent: *
    Disallow: /
  4. Некорректный формат директивы Disallow.
    Неправильно:
    User-agent: Yandex
    Disallow: admin
    Правильно:
    User-agent: Yandex
    Disallow: /admin/

Проверить файл robots. txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».

Выводы


  • Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
  • Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
  • Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
  • Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
  • После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.

Статья

Что из англоязычного SEO можно применять в Рунете?

#SEO, #Google

Статья

Кейс RU-CENTER: выстроили работу с упоминаниями и снизили долю негатива в выдаче

#Яндекс, #Google

Статья

Яндекс обновил алгоритмы: как улучшить ранжирование сайта?

#SEO, #Яндекс

Статью подготовили:

Прокопьева Ольга. Работает копирайтером, в свободное время пишет прозу и стихи. Ближайшие профессиональные цели — дописать роман и издать книгу.

    


Анастасия Курдюкова, руководитель группы оптимизаторов «Ашманов и партнеры», опытный специалист по SEO-оптимизации, ведущая вебинаров для клиентов компании.

Теги: SEO, Яндекс, Google

Robots.txt — Как создать правильный robots.txt

Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.

Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.

Что такое robots.txt в WordPress?

акции 70 Делиться Твитнуть Делиться Facebook-мессенджер WhatsApp Эл. адрес

Robots.txt — это текстовый файл, который позволяет веб-сайту давать инструкции роботам, сканирующим веб-страницы.

Поисковые системы, такие как Google, используют эти поисковые роботы, иногда называемые веб-роботами, для архивирования и категоризации веб-сайтов. Большинство ботов настроены на поиск файла robots.txt на сервере, прежде чем он прочитает любой другой файл с веб-сайта. Это делается для того, чтобы узнать, есть ли у владельца веб-сайта какие-либо специальные инструкции о том, как сканировать и индексировать его сайт.

Файл robots.txt содержит набор инструкций, которые требуют от бота игнорировать определенные файлы или каталоги. Это может быть сделано в целях конфиденциальности или потому, что владелец веб-сайта считает, что содержимое этих файлов и каталогов не имеет отношения к классификации веб-сайта в поисковых системах.

Если веб-сайт имеет более одного субдомена, для каждого субдомена должен быть свой файл robots.txt. Важно отметить, что не все боты поддерживают файл robots.txt. Некоторые вредоносные боты даже читают файл robots.txt, чтобы определить, какие файлы и каталоги им следует атаковать в первую очередь. Кроме того, даже если файл robots.txt предписывает ботам игнорировать определенные страницы сайта, эти страницы все равно могут отображаться в результатах поиска, если на них есть ссылки с других сканируемых страниц.

Дополнительные показания
  • Как добавить свой сайт WordPress в Google Search Console
  • SEO

Акции 70 Делиться Твитнуть Делиться Facebook-мессенджер WhatsApp Эл. адрес

О редакции

Редакция WPBeginner — это команда экспертов WordPress во главе с Сайедом Балхи. Мы создаем учебные пособия по WordPress с 2009 года, и WPBeginner стал крупнейшим в отрасли сайтом с бесплатными ресурсами WordPress.

Файлы robots.txt | Search.gov

Файл /robots.txt — это текстовый файл, который инструктирует автоматических веб-ботов о том, как сканировать и/или индексировать веб-сайт. Веб-команды используют их для предоставления информации о том, какие каталоги сайта следует или не следует сканировать, как быстро следует получать доступ к контенту и какие боты приветствуются на сайте.

Как должен выглядеть мой файл robots.txt?

Подробную информацию о том, как и где создать файл robots.txt, см. в протоколе robots.txt. Ключевые моменты, о которых следует помнить:

  • Файл должен находиться в корне домена, и для каждого поддомена нужен свой файл.
  • Протокол robots. txt чувствителен к регистру.
  • Легко случайно заблокировать сканирование всего:
    • Запретить: / означает запретить все.
    • Disallow: означает ничего не запрещать, то есть разрешать все.
    • Разрешить: / означает разрешить все.
    • Разрешить: означает ничего не разрешать, что запрещает все.
  • Инструкции в файле robots.txt являются руководством для ботов, а не обязательными требованиями — вредоносные боты могут игнорировать ваши настройки.

Как оптимизировать файл robots.txt для Search.gov?

Задержка сканирования

В файле robots.txt может быть указана директива «задержка сканирования» для одного или нескольких пользовательских агентов, которая сообщает боту, как быстро он может запрашивать страницы с веб-сайта. Например, задержка сканирования, равная 10, означает, что сканер не должен запрашивать новую страницу чаще, чем каждые 10 секунд.

 500 000 URL-адресов
     x 10 секунд между запросами
5 000 000 секунд на все запросы
5 000 000 секунд = 58 дней, чтобы проиндексировать сайт один раз.
 

Мы рекомендуем задержку сканирования в 2 секунды для нашего пользовательский агент usasearch и установка более высокой задержки сканирования для всех остальных ботов. Чем меньше задержка сканирования, тем быстрее Search.gov сможет проиндексировать ваш сайт. В файле robots.txt это будет выглядеть так:

.
 Агент пользователя: usasearch
Задержка сканирования: 2
Пользовательский агент: *
Задержка сканирования: 10
 

XML-карты сайта

В файле robots.txt также должны быть перечислены одна или несколько ваших XML-карт сайта. Например:

 Карта сайта: https://www.example.gov/sitemap.xml
Карта сайта: https://www.example.gov/independent-subsection-sitemap.xml
 
  • Список карт сайта только для домена, в котором находится файл robots.txt. Карта сайта другого субдомена должна быть указана в файле robots. txt этого субдомена.

Разрешить только тот контент, который вы хотите найти

Мы рекомендуем запретить любые каталоги или файлы, которые не должны быть доступны для поиска. Например:

 Запретить: /архив/
Запретить: /news-1997/
Запретить: /reports/duplicative-page.html
 
  • Обратите внимание: если вы запретите каталог после того, как он был проиндексирован поисковой системой, это может не привести к удалению этого содержимого из индекса. Вам нужно будет зайти в инструменты поисковой системы для веб-мастеров, чтобы запросить удаление.
  • Также обратите внимание, что поисковые системы могут индексировать отдельные страницы в запрещенной папке, если поисковая система узнает об URL-адресе из метода, не связанного со сканированием, например, по ссылке с другого сайта или из вашей карты сайта. Чтобы данная страница не была доступна для поиска, установите на этой странице метатег robots.

Настройка параметров для разных ботов

Вы можете установить разные разрешения для разных ботов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *