Разное

Crawl delay 5: delay — устаревшая директива для файла robots.txt

31.03.2023

правила составления и основные директивы

Последнее обновление: 02 октября 2019 года

5421

Эффективная оптимизация сайта неизбежно включает в себя создание и правильную настройку файла robots.txt. Создать этот файл можно в обычном «блокноте», а для того, чтобы он начал использоваться, его нужно поместить в корневую папку сайта (туда же, где расположен файл index.php). Этот файл содержит в себе перечень инструкций, или директив, которыми будут пользоваться поисковые роботы. Это не значит, что в случае отсутствия файла роботс они не станут индексировать ваш сайт – это значит, что при наличии такого файла они будут делать это гораздо более эффективно и быстро.

Это важно по многим причинам. Во-первых, задав роботам определенные правила взаимодействия с вашим порталом, вы уменьшите нагрузку на свой сервер, создаваемую из-за их работы. Во-вторых, вы сможете задать перечень файлов, страниц и разделов, к которым роботы не будут обращаться в принципе. И, наконец, в-третьих, вы сможете оптимизировать индексацию страниц вашего сайта.

Основные директивы файла robots.txt

Существует несколько основных директив, которые должен содержать файл роботс, и от которых непосредственно зависит, каким образом поисковые системы и роботы будут взаимодействовать с вашим сайтом:

  • User-agent. Эта директива говорит о том, инструкции для каких роботов будут следовать за ней. Это может быть робот Mail.Ru, StackRambler, Bingbot, любой из многочисленных роботов Яндекса(YandexBot, YandexDirect, YandexMetrika, YandexImages, YandexNews и так далее), любой из многочисленных роботов Google (Googlebot, Mediapartners, AdsBot-Google, Googlebot-Image, GoogleBot-Video и так далее). Юзер агент – ключевая директива, без которой все, что следует дальше, не будет иметь какого-либо смысла.

  • Disallow. Главное назначение этой директивы заключается в том, чтобы закрыть определенные файлы, страницы или даже разделы сайта от индексирования поисковыми роботами. Это самая востребованная директива, только из-за возможности пользоваться которой многие вебмастера в принципе заводят файл robots.txt. При указании адресов файлов, страниц, групп страниц и разделов, которые не должны индексироваться, можно использовать дополнительные символы. Так, «*» предполагает любое количество символов (включая нулевое) и по умолчанию подразумевается в конце каждой строки. А знак «$» говорит о том, что предшествующий символ был последним.

  • Allow. Это гораздо менее популярная директива, которая формально разрешает роботу заниматься индексацией того или иного раздела. Не востребована она потому, что поисковики в принципе имеют свойство индексировать все данные интернет-ресурса, которые теоретически могут быть полезны пользователям (за исключением тех, что прописаны под директивой Disallow).

  • Host. Такая директива позволяет задать адрес главного зеркала сайта. Отличие, как правило, заключается в наличии или отсутствии трех букв «w».

    Если ваш портал еще не индексировался поисковыми системами, то вы можете сами задать его зеркало. В противном случае введите адрес своего сайта, например, в Яндексе. И если в первом результате выдачи не будет «www», то это будет означать, что в главном зеркале эти три буквы есть, и наоборот. Обратите внимание на то, что эту директиву поддерживают только роботы Mail.Ru и Яндекса, а вводить ее необходимо исключительно однократно.

  • Sitemap. Эта директива должна подсказывать роботам путь к одноименному XML-файлу, в котором содержится карта индексируемых страниц, информация о датах их изменения и приоритете при просмотре и индексации.

  • Crawl-delay. С помощью такой директивы можно назначить временной интервал между теми моментами, когда поисковый робот заканчивает скачивание предыдущей страницы сайта и начинает загрузку следующей. Измеряется этот временной интервал в секундах. Директива Crawl delay применяется для того, чтобы сократить нагрузку на сайт со стороны поисковых роботов и избежать неполадок в работе сервера. Не рекомендуется сразу начинать с больших значений (например, с Crawl-delay 2), лучше вводить задержки продолжительностью в десятые доли секунды и, при необходимости, постепенно их удлинять. При этом более продолжительные временные интервалы можно использовать для менее важных роботов (Yahoo, Bing, Mail.Ru), а для Яндекса лучше делать их минимальными. Роботы Google игнорируют эту директиву.

  • Clean param. Это директива, способная существенно рационализировать прохождение поискового робота по сайту. С помощью Clean param вы можете описать динамические составляющие URL, не оказывающие никакого влияния на содержимое страницы. Это идентификаторы пользователей, сессий, индивидуальные префиксы и другие части подобного плана. Указание их в Clean param даст поисковому роботу понять, что он уже загружал этот материал (только с другими динамическими элементами, не меняющими содержание), и скачивать его повторно он не будет. Это очень полезная директива, которая, тем не менее, используется владельцами сайтов не так часто, как стоило бы.

    Поэтому если вы хотите сделать взаимодействие своего портала с роботами как можно более эффективным – не забудьте указать в файле роботс Clean param.

Какие бы директивы вы ни прописывали, будь то Crawl-Delay, Clean param, Disallow или что-либо еще, крайне желательно снабжать их комментариями (под символом «#», текст после которого робот не читает). В противном случае даже вы сами через полгода можете не вспомнить, почему, например, закрыли от индексации ту или иную страницу, а уж если за дело возьмется другой человек – то ему и подавно будет сложно в этом разобраться. Тем временем, спустя какое-то время в файле, вполне возможно, понадобится что-то изменить, поэтому лучше бы сохранить возможность беспроблемно в нем ориентироваться.

Аудит контекстной рекламы

Бесплатно проведем анализ медиапланирования, настроек рекламной кампании и выбранной стратегии управления ставками.

Статья

Изменение ландшафта поискового пространства

#SEO

Статья

Черные и белые методы SEO-продвижения сайта

#SEO

Статья

Контент-маркетинг и SEO

#SEO

Ключевые правила настройки файла robots.

txt

Необязательно самостоятельно создавать файл robots.txt: Яндекс, Google и другие поисковые системы смогут довольно эффективно использовать на вашем сайте своих роботов, даже если вы скачаете шаблонный вариант этого файла. Однако если вы хотите, чтобы их работа была наиболее оптимизированной, быстрой и результативной, стоит все же позаботиться о самостоятельной настройке файла роботс. При этом стоит учесть следующие ключевые правила:

  • Все страницы, связанные с администрированием сайта, личными кабинетами, процедурами регистрации-авторизации, оформлением заказов, а также технические дубли страниц и служебные разделы должны быть закрыты от индексирования. Это касается всех поисковых систем, будь то User-agent Yandex bot, или, например, User-agent Mail.Ru.

  • Имеет смысл также закрыть от индексации json- и ajax-скрипты, папку cgi, страницы с параметрами сессий и UTM-меток, сортировки, фильтров, сравнения.

  • Чтобы убедиться, что вы сделали подходящие настройки robots.txt, можно воспользоваться соответствующими инструментами систем Яндекс и Google.

  • Спустя полмесяца после добавления новых страниц на сайт и включения их в директиву Disallow имеет смысл проверить через поисковые системы, не были ли они проиндексированы. Если да – то потребуется пересмотреть и откорректировать настройки.

Файл robots.txt дает возможность оптимизировать работу сайта с поисковыми роботами, которая доступна даже при отсутствии глубоких узкоспециализированных знаний. Главное – правильно настроить этот файл и периодически проверять, корректно ли он считывается роботами Google, Яндекса и других поисковых систем. 

Теги: SEO

Вам будет интересно

Факторы ранжирования ecommerce — 2020. Аналитический отчет

#SEO, #интернет-магазины, #исследование

SEO//DEV — разработка и SEO в одном продукте

#SEO, #разработка

Что из англоязычного SEO можно применять в Рунете?

#SEO, #Optimization, #Google

Что стоит за обещаниями вывести ваш сайт в топ за несколько дней?

#SEO

SEO для IT-компаний в 2022 году: рекомендации по продвижению

#SEO, #сайт B2B

Обновления в рейтинге видимости сайтов 2022

#SEO, #рейтинги

Robots.

txt — как настроить и загрузить на сайт

Михаил Шумовский
07 октября, 2022

Кому нужен robots.txt Как настроить robots.txt Как создать robots.txt Требования к файлу robots.txt Как проверить правильность Robots.txt

Мы в Telegram

В канале «Маркетинговые щи» только самое полезное: подборки, инструкции, кейсы.
Не всегда на серьёзных щах — шуточки тоже шутим =)

Подписаться

Станьте email-рокером 🤘

Пройдите бесплатный курс и запустите свою первую рассылку

Подробнее

Robots.txt — документ, который нужен для индексирования и продвижения сайта. С помощью этого файла владелец сайта подсказывает поисковым системам, какие разделы ресурса нужно учитывать, а какие — нет. Объясняю особенности его составления и настройки такого текстового файла.

Кому нужен robots.txt

Если у сайта нет robots.txt, поисковые роботы считают все страницы ресурса открытыми для индексирования. Если файл есть, владелец сайта может запретить роботам индексировать определённые страницы.

Например, контентным ресурсам или медиа можно работать без robots.txt — тут все страницы участвуют в индексации.

На других ресурсах могут быть страницы, которые не нужно показывать поисковым роботам:

  • Админ-панели сайта: пути, которые начинаются с /user, /admin, /administrator и т.д.
  • Пустые страницы ресурса: если на них нет контента, в индексации они не помогут.
  • Формы регистрации.
  • Личные страницы в интернет-магазинах: кабинеты пользователей, корзины и т. д.

Как настроить файл robots.txt

Начну с основных параметров.

User-agent: Yandex
Disallow: catalog/
Allow: /catalog/cucumbers/
Sitemap: http://www.example.com/sitemap.xml

User-agent — указывает название робота, к которому применяется правило. Например, User-agent: Yandex означает, что правило применяется к роботу Яндекса.

А user-agent: * означает, что правило применяется ко всем роботам. Но о звёздочках поговорим ниже.

Основные типы роботов, которые можно указать в User-agent:

  • Yandex. Все роботы Яндекса.
  • YandexBot. Основной робот Яндекса
  • YandexImages. Индексирует изображения.
  • YandexMedia. Индексирует видео и другие мультимедийные данные.
  • Google. Все роботы Google.
  • Googlebot. Основной робот Google.
  • Googlebot-Image. Индексирует изображения.

Disallow. Указывает на каталог или страницу ресурса, которые роботы индексировать не будут. Если нельзя индексировать конкретную страницу, например, определённый раздел в каталоге, нужно указывать полный путь к ней — как в поисковой строке браузера. 

В начале строки должен быть символ /. Если правило касается каталога, строка должна заканчиваться символом /.

Например, disallow: /catalog/gloves. Так мы запретим индексацию раздела с перчаткам.

Если оставить disallow пустым, роботы будут индексировать все страницы сайта.

Allow. Указывает на каталог или страницу, которые можно сканировать роботу. Его используют, чтобы внести исключения в пункт disallow и разрешить сканирование подкаталога или страницы в каталоге, который закрыт для обработки. 

Если требуется индексировать конкретную страницу, нужно указывать к ней полный путь. Как и в disallow. Например, allow: /story/marketing. Так мы разрешили индексировать статью о маркетинге.

Если правило касается каталога, строка должна заканчиваться символом /.

Если allow пустой, робот не будет индексировать никакие страницы.

Sitemap. Необязательная директива, которая может повторяться несколько раз или не использоваться совсем. Её используют, чтобы описать структуру сайта и помочь роботам индексировать страницы.

Лендингам и небольшим сайтам sitemap не нужен. А вот таким ресурсам без sitemap не обойтись:

  • Cайтам без хлебных крошек (навигационных цепочек).
  • Большим ресурсам. Например, если сайт содержит большой объём мультимедиа или новостного контента.
  • Сайтам с глубокой вложенностью. Например, «Главная/Каталог/Перчатки/Резиновые».
  • Молодым ресурсам, на которые мало внешних ссылок, — их роботам сложно найти.
  • Сайтам с большим архивом страниц, которые изолированы или не связаны друг с другом.

Файл нужно прописывать в XML-формате. Создание sitemap — тема для отдельной статьи. Подробную инструкцию читайте на Google Developers или в Яндекс.Справке.

Основные моменты robots.txt разобрали. Теперь расскажу про дополнительные параметры, которые используют в коде.

Для начала посмотрим на robots.txt Unisender. Для этого в поисковой строке браузера пишем Unisender.com/robots.txt.

По такой же формуле можно проверять файлы на всех сайтах: URL сайта + домен/robots.txt.

Robots.txt Unisender отличается от файла, который я приводил в пример. Дело в том, что здесь использованы дополнительные параметры:

Директива # (решётка) — комментарий. Решётки прописывают для себя, а поисковые роботы комментариев не видят.

User-agent: Yandex
Allow: /example/* # разрешает ‘/example/blog’
                               # разрешает ‘/example/blog/test’
Звёздочку роботы видят, а решётку — нет

Директива * (звёздочка) — любая последовательность символов после неё.  

Например, если поставить звёздочку в поле disallow, то всё, что находится на её месте, будет запрещено.

User-agent: Yandex
Disallow: /example/* # запрещает ‘/example/blog’
                                 # запрещает ‘/example/blog/test’
Disallow: */shop        # запрещает не только ‘/shop’,
                                   # но и ‘/example/shop’

Также и с полем allow: всё, что стоит на месте звёздочки, — разрешено для индексации.

User-agent: Yandex
Allow: /example/*   # разрешает ‘/example/blog’
                               # разрешает ‘/example/blog/test’
Allow: */shop         # разрешает не только ‘/shop’,
                               # но и ‘/example/shop’

Например, у Google есть особенность: компания рекомендует не закрывать от поисковых роботов файлы с css-стилями и js-скриптами. Вот как это нужно прописывать:

User-agent: Googlebot
Disallow: /site
Allow: *.css
Allow: *. js

Директива $ (знак доллара) — точное соответствие указанному параметру.
Например, использование доллара в disallow запретит доступ к определённому пути.

User-agent: Yandex
Disallow: /example      # запрещает ‘/example’,
                                     # запрещает ‘/example.html’
Disallow: /example$ # запрещает ‘/example’,
                                # не запрещает ‘/example.html’
                              # не запрещает ‘/example1’
                              # не запрещает ‘/example-new’

Таким способом можно исключить из сканирования все файлы определённого типа, например, GIF или JPG. Для этого нужно совместить * и $. Звёздочку ставим до расширения, а $ — после.

User-agent: Yandex
Disallow: / *.gif$    # вместо * могут быть любые символы,
                               # $ запретит индексировать файлы gif

Директива Clean-param — новый параметр Яндекс-роботов, который не будет сканировать дублированную информацию и поможет быстрее анализировать ресурс.

Дело в том, что из-за повторяющейся информации роботы медленнее проверяют сайт, а изменения на ресурсе дольше попадают в результаты поиска. Когда роботы Яндекса увидят эту директиву, не будут несколько раз перезагружать дубли информации и быстрее проверят сайт, а нагрузка на сервер снизится.

www.example.com/dir/get_card.pl?ref=site_1&card_id=10
www.example.com/dir/get_card.pl?ref=site_2&card_id=10

Параметр ref нужен, чтобы отследить, с какого ресурса сделан запрос. Он не меняет содержимое страницы, значит два адреса покажут одну и ту же страницу с книгой card_id=10. Поэтому директиву можно указать так:

User-agent: Yandex
Disallow:
Clean-param: ref /dir/get_card.pl

Робот Яндекса сведёт страницы к одной: www.example.com/dir/get_card.pl?card_id=10

Чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:

User-agent: Yandex
Disallow:
Clean-param: utm

Директива Crawl-delay — устанавливает минимальный интервал в секундах между обращениями робота к сайту. Это помогает снизить нагрузку на сервер ресурса. Чем выше указанное значение, тем меньше страниц робот загрузит за сессию.

Значения можно указывать целыми или дробными числами через точку.

User-agent: Yandex
Disallow:
Crawl-delay: 0.5

Для Яндекса максимальное значение в crawl-delay — 2. Более высокое значение можно установить инструментами Яндекс.Вебмастер.

Для Google-бота можно установить частоту обращений в панели вебмастера Search Console.

Директива Host — инструкция для робота Яндекса, которая указывает главное зеркало сайта. Нужна, если у сайта есть несколько доменов, по которым он доступен. Вот как её указывают:

User-agent: Yandex
Disallow: /example/
Host: example.ru

Если главное зеркало сайта — домен с протоколом HTTPS, его указывают так:

Host: https://site.ru

Как создать robots.txt

Способ 1. Понадобится текстовый редактор: блокнот, TextEdit, Vi, Emacs или любой другой. Не используйте приложения Microsoft Office, потому что они сохраняют файлы в неподходящем формате или добавляют в них лишние символы, которые не распознаются поисковыми роботами.

Способ 2. Создать на CMS с помощью плагинов — в этом случае robots.txt установится сам.

Если вы используете CMS хостинга, редактировать файл robots.txt не потребуется. Скорее всего, у вас даже не будет такой возможности. Вместо этого провайдер будет указывать поисковым системам, нужно ли сканировать контент, с помощью страницы настроек поиска или другого инструмента.

Способ 3. Воспользоваться генератором robots.txt — век технологий всё-таки. 

Сгенерировать файл можно на PR-CY, IKSWEB, Smallseotools.

Требования к файлу robots.txt

Когда создадите текстовый файл, сохраните его в кодировке utf-8. Иначе поисковые роботы не смогут прочитать документ. После создания загрузите файл в корневую директорию на сайте хостинг-провайдера. Корневая директория — это папка public. html.

Папка, в которой нужно искать robots.txt. Источник

Если файла нет, его придётся создавать самостоятельно.

Требования, которым должен соответствовать robots.txt:

  1. Каждая директива начинается с новой строки.
  2. Одна директива в строке, сам параметр также написан в одну строку.
  3. В начале строки нет пробелов.
  4. Нет кавычек в директивах.
  5. Директивы не нужно закрывать точкой или точкой с запятой.
  6. Файл должен называться robots.txt. Нельзя называть его Robots.txt или ROBOTS.TXT.
  7. Размер файла не должен превышать 500 КБ.
  8. robots.txt должен быть написан на английском языке. Буквы других алфавитов не разрешаются.

Если файл не соответствует одному из требований, весь сайт считается открытым для индексирования.

Как проверить правильность Robots.txt

Проверить robots. txt помогают сервисы от Яндекс и Google. В Яндексе можно проверять файл даже без сайта — например, если вы написали robots.txt, но пока не загрузили его на сайт.

Вот как это сделать:

  1. Перейдите на Яндекс.Вебмастер. 
  2. В открывшееся окно вставьте текст robots.txt и нажмите проверить.

Если файл написан правильно, Яндекс.Вебмастер не увидит ошибок.

А если увидит ошибку — подсветит её и опишет возможную проблему.

На Яндекс.Вебмастер можно проверить robots.txt и по URL сайта. Для этого нужно указать запрос: URL сайта/robots.txt. Например, unisender.com/robots.txt.

Ещё один вариантпроверить файл robots.txt через Google Search Console. Но сначала нужно подтвердить владение сайтом. Пошаговый алгоритм проверки robots.txt описан в видеоинструкции:

Поделиться

СВЕЖИЕ СТАТЬИ

Другие материалы из этой рубрики

Не пропускайте новые статьи

Подписывайтесь на соцсети

Делимся новостями и свежими статьями, рассказываем о новинках сервиса

«Честно» — авторская рассылка от редакции Unisender

Искренние письма о работе и жизни. Свежие статьи из блога. Эксклюзивные кейсы и интервью с экспертами диджитала.

Оставляя свой email, я принимаю Политику конфиденциальности

Наш юрист будет ругаться, если вы не примете 🙁

Как запустить email-маркетинг с нуля?

В бесплатном курсе «Rock-email» мы за 15 писем расскажем, как настроить email-маркетинг в компании. В конце каждого письма даем отбитые татуировки об email ⚡️

*Вместе с курсом вы будете получать рассылку блога Unisender

Оставляя свой email, я принимаю Политику конфиденциальности

Наш юрист будет ругаться, если вы не примете 🙁

Как настроить задержку сканирования в файле robots.

txt

Задержка сканирования в файле robots.txt: что это значит?

Знаете ли вы, что поисковым системам, таким как Google, Yahoo! и Bing, необходимо регулярно сканировать ваш веб-сайт не только для поиска и индексирования вновь созданного контента, но и для того, чтобы они могли обновлять свои системы с учетом любых изменений, внесенных вами на ваш веб-сайт , такие как реструктуризация или удаление контента?

Если вы не знали, теперь знаете! Вы можете сделать это, используя специальную директиву, добавленную в ваш файл robots.txt.

Среди множества директив, которые вы можете добавить в файл robots.txt, вы можете добавить те, которые контролируют скорость индексации вашего сайта поисковыми системами. Как правило, большинству владельцев веб-сайтов не нужно настраивать задержку сканирования для своего веб-сайта, но в некоторых случаях это может быть хорошей идеей.

В этой статье базы знаний рассказывается, как создать файл robots.txt, вставить правильную директиву для ограничения скорости сканирования поисковой системы и показать, как управлять этим параметром для поисковых систем, которые не придерживаются этого параметра.

Как создать файл robots.txt в cPanel

Мы будем использовать файловый менеджер cPanel для создания файла. Сначала откройте свою клиентскую зону, чтобы войти на свой клиентский портал. Затем найдите оранжевый значок CP справа от службы, которую вы хотите администрировать.

Поиск вашей cPanel в личном кабинете.

После открытия cPanel в области ФАЙЛЫ откройте Диспетчер файлов.

Поиск файлового менеджера в вашей cPanel

После того, как файловый менеджер откроется, вы захотите найти свою папку public_html (Как найти корневой каталог документа в cPanel). Затем дважды щелкните значок земного шара слева от public_html, чтобы открыть папку.

Если вы дважды щелкните текст «public_html», вы можете непреднамеренно открыть опцию переименования папки. Если это произойдет, просто щелкните пустое пространство под всеми папками и повторите попытку.

Расположение папки public_html в cPanel > Диспетчер файлов

После того, как папка открыта, в зависимости от того, насколько вы продвинулись в разработке своего веб-сайта, у вас могут быть или не быть какие-либо файлы/папки в папке public_html. Не волнуйтесь, если у вас есть файлы/папки, вы все равно можете пройти это руководство и не беспокоиться о том, что это сломает ваш сайт. 🙂

В нашем примере наша папка public_html пуста, за исключением папки cgi-bin.

Почти пустая папка public_html в cPanel > Диспетчер файлов

Мы можем легко создать пустой файл robots.txt из диспетчера файлов. В верхнем левом углу файлового менеджера найдите параметр + Файл рядом с + Папка. Нажмите + Файл, и откроется модальное окно с запросом имени файла +, где вы хотите его создать:

cPanel > Диспетчер файлов > Модальное окно «Новый файл»

В поле «Новое имя файла» назовите файл robots.txt, затем нажмите «Создать». Новый файл. Вы вернетесь в представление файлового менеджера в папке public_html и увидите, что файл создан.

Новый файл отображается в cPanel > Диспетчер файлов после создания

 

Как настроить задержку сканирования в файле robots.txt Выход из файлового менеджера.

Чтобы начать редактирование файла, щелкните один раз файл robots. txt, чтобы он был выделен полупрозрачным голубым цветом, как показано ниже:

Выделенный файл robots.txt в cPanel > Файловый менеджер

После выбора файл, посмотрите в верхнем меню файлового менеджера. Вверху находятся несколько опций, в том числе «+Файл», «+Папка», «Копировать», «Переместить», «Загрузить» и другие. Нам нужно использовать Edit. После того, как вы нажмете «Изменить», появится модальное окно с некоторой информацией.

Диспетчер файлов cPanel > Редактировать файл

Для использования файла robots.txt вы можете игнорировать это и продолжить, нажав «Редактировать».

В вашем браузере появится новая вкладка, и вы попадете в нечто, напоминающее текстовый процессор старой школы. Для тех, кто не помнит, это то, на чем люди печатали свои письма до Интернета. 😁

Редактор файлов cPanel

Важно отметить, что Google не придерживается настроек задержки сканирования, используемых в файле robots.txt. Мы поговорим о том, как настроить скорость сканирования Google позже. Эти настройки будут работать для Bing, Yahoo! и Яндекс.

Чтобы вставить задержку сканирования, скопируйте приведенный ниже текст и вставьте его в редактор:

 Агент пользователя: *
Crawl-delay: 1 

Это попросит пауков поисковых систем, сканирующих ваш веб-сайт, ждать 1 секунду между каждой просматриваемой страницей. Если вы хотите, чтобы они ждали дольше, вы можете использовать эти две другие настройки:

 User-agent: *
Crawl-delay: 5 

или

 User-agent: *
Crawl-delay: 10 

Они будут просить поисковые системы ждать 5 или 10 секунд между обходами страниц.

Знаете ли вы, что скорость веб-сайта влияет на SEO и рейтинг Google? Мы используем кэширование LiteSpeed ​​для почти мгновенной доставки контента вашим посетителям.  Ознакомьтесь с нашими планами веб-хостинга !

Ваш редактор должен выглядеть примерно так, как показано на рисунке ниже, после вставки одного из указанных выше параметров:

Диспетчер файлов cPanel > Редактор с установленными директивами robots. txt

После ввода данных нажмите синюю кнопку «Сохранить изменения» в правом верхнем углу. . Затем нажмите кнопку «Закрыть» рядом с кнопкой «Сохранить изменения».

Вы вернетесь в диспетчер файлов cPanel, где файл robots.txt был создан и обновлен с помощью этой директивы.

Как изменить скорость сканирования Googlebot

В 2019 году Google объявил, что будет игнорировать определенные директивы в файле robots.txt, и впоследствии обновил свою консоль поиска Google, чтобы вы могли контролировать скорость сканирования.

Чтобы управлять скоростью сканирования ботов Google, войдите в свою консоль поиска Google и в настройках сайта и выберите «Ограничить максимальную скорость сканирования Google», как показано ниже:

Инструменты Google для веб-мастеров > Ограничить скорость сканирования Google

Если вы вносите какие-либо изменения, не забудьте нажать кнопку Сохранить.

И все!

seo — crawl-delay:x ——— тут кто-то разобрался как там работает математика?

Из предыдущего исследования чтения различных статей я понимаю, что задержка сканирования robots. txt, такая как crawl-delay: 1 , позволяет данной поисковой системе сканировать x количество веб-страниц в секунду , а затем остановить, пока в следующий раз.

Моя проблема

Мне непонятно с какого момента до останавливается (24 часа?).

Мне также неясно, что он делает после того, как я прочитал здесь следующее утверждение:

Установив задержку сканирования на 10 секунд, вы разрешаете этим поисковым системам доступ только к 8640 страницам в день.

Мой вопрос

задержка сканирования: x ; кто-то здесь сумел понять, как там работает математика?

  • SEO
  • поисковые роботы
  • robots.txt

2

Параметр задержки сканирования — это минимально допустимое количество секунд между выборками страниц. Это не «количество веб-страниц в секунду», как вы постулируете.

Например, при задержке сканирования 10 сканер должен:

  1. Просканировать страницу A
  2. Подождите не менее 10 секунд
  3. Сканирование страницы B

Это означает, что сканер может сканировать не более 6 страниц в минуту (шестьдесят секунд, разделенных на 10), 360 страниц в час или 8640 страниц в день. Чем меньше задержка сканирования, тем больше разрешено сканирование.

Многие поисковые роботы не поддерживают директиву crawl-delay . Например, робот Googlebot игнорирует это и вместо этого прекращает сканирование, если ваш сайт замедляется (динамическая реактивная задержка сканирования).

Как веб-мастер, я никогда не устанавливал задержку сканирования . Недостаточное количество сканеров поддерживает его, чтобы изменить нагрузку на сервер. Когда для него установлено большое значение, это может повредить вашему SEO для поисковых систем, чьи боты следуют за ним.

5

Этот ответ представляет собой отредактированную версию ответа Стивена Остермиллера. ответ, который я принял, и предлагаю проголосовать (как и я сам). Я публикую это здесь, потому что мне легче читать через Интернет. доступность.

Параметр задержки сканирования — это минимально допустимое количество секунд между выборками страниц.
Итак, это не «количество веб-страниц в секунду», как вы постулировали.

Например, при задержке сканирования 10 сканер должен:

  1. Просканировать страницу A
  2. Подождите не менее 10 секунд
  3. Сканирование страницы B

Это означает, что сканер может сканировать не более 6 страниц в минуту (шестьдесят секунд, разделенных на 10), 360 страниц в час или 8640 страниц в день.

Чем меньше задержка сканирования, тем больше разрешено сканирование.

Дополнительные примечания

  • Многие поисковые роботы не поддерживают директива задержки сканирования . Например, робот Googlebot игнорирует это и вместо этого прекращает сканирование, если ваш сайт замедляется (динамическая реактивная задержка сканирования).

  • Как веб-мастер, я никогда не устанавливал задержку сканирования . Недостаточное количество сканеров поддерживает его, чтобы изменить нагрузку на сервер. Когда для него установлено большое значение, это может повредить вашему SEO для поисковых систем, чьи боты следуют за ним.

Обновление

Стивен позже добавил в комментариях:

Если ваш сервер очень быстрый и обслуживает страницы мгновенно, максимальная скорость сканера — 60 страниц в секунду.

Также неясно, должно ли время ожидания быть между начало запроса к началу следующего, или же задержка должно быть между концом запроса и началом следующего.

Разные поисковые роботы могут интерпретировать его по-разному, поскольку значение не кодифицировано ни в одной спецификации, насколько мне известно.

Я ответил :

Стивен, я думаю, что это очень важные вопросы — если я понимаю вы правы, никто не может знать, чем закончится Crawl-delay: 1 (30 секунд, 60 секунд или что-то среднее между этими числа), так как это зависит от производительности приложения.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *