Wordpress

Робот txt для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

03.09.2020

Содержание

Полное руководство по файлу robots.txt для WordPress

WordPress

access_time

25 июля, 2018

hourglass_empty

6мин. чтения

Чтобы быть уверенным, что ваш сайт хорошо ранжируется в результатах поисковых систем (Search Engine Result Pages – SERPs), вам нужно сделать его наиболее важные страницы удобным для поиска и индексирования «роботоми» («ботами») поисковых движков. Хорошо структурированный файл robots.txt поможет направить этих ботов на страницы, которые вы хотите проиндексировать (и пропустить другие).

В этой статье мы собираемся раскрыть такие вопросы:

  1. Что такое файл robots.txt и почему он важен
  2. Где находится robots.txt для WordPress
  3. Как создать файл robots.txt
  4. Какие правила должны быть в файле robots.txt для WordPress
  5. Как проверить файл robots.txt и отправить его в консоль Google Search.

К концу нашего обсуждения у вас будет всё необходимое для настройки отличного файла robots.txt для вашего сайт на WordPress. Начнём!

Что такое файл 

robots.txt для WordPress и зачем он нужен

Когда вы создаёте новый сайт, поисковые движки будут отправлять своих миньонов (или роботов) для сканирования и создания карты всех его страниц. Таким образом, они будут знать, какие страницы показывать как результат, когда кто-либо ищет по относящимся ключевым словам. На базовом уровне это достаточно просто.

Проблема состоит в том, что современные сайты содержат множество других элементом, кроме страниц. WordPress позволяет вам устанавливать, например, плагины, которые часто имеют свои каталоги. Вы не хотите показывать это в результатах поисковой выдачи, поскольку они не соответствуют содержимому.

Что делает файл robots.txt, так это обеспечивает ряд указаний для поисковых роботов. Он говорит им: «Посмотрите здесь, но не заходите в эти области!». Этот файл может настолько подробным, на сколько вы захотите и его очень просто создавать, даже если вы не технический волшебник.

На практике, поисковые движки всё равно будут сканировать ваш сайт, даже если вы не создадите файл robots.txt. Однако, не создавать его является весьма нерациональным шагом. Без этого файла вы оставите роботам для индексации весь контент вашего сайта и они решать, что можно показывать все части вашего сайта, даже те, которые бы вы хотели скрыть от общего доступа.

Более важный момент, без файла robots.txt, у вас будет очень много обращений для сканирования ботами вашего сайта. Это негативно скажется на его производительности. Даже если посещаемость вашего сайта ещё невелика, скорость загрузки страницы – это то, что всегда должно быть в приоритете и на высшем уровне. В конце концов, есть всего несколько моментов, которые люди не любят больше, чем медленная загрузка сайтов.

Где находится файл robots.txt для WordPress

Когда вы создаёте сайт на WordPress, файл robots.txt создаётся автоматически и располагается в вашем главном каталоге на сервере. Например, если ваш сайт расположен здесь: yourfakewebsite.com, вы сможете найти его по адресу yourfakewebsite.com/robots.txt и увидеть примерно такой файл:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Это пример самого простого базового файла robots.txt. Переводя на понятный человеку язык, правая часть после User-agent: объявляет, для каких роботов предназначены правила ниже. Звёздочка означает, что правило универсальное и применяется для всех ботов. В данном случае файл говорит ботам, что им нельзя сканировать каталоги wp-admin и wp-includes. Смыл этих правил заключается в том, что данные каталоги содержат очень много файлов, требующих защиты от общего доступа.

Конечно же, вы можете добавить больше правил в свой файл. Прежде чем вы это сделаете, вам нужно понять, что это

виртуальный файл.  Обычно, WordPress robots.txt находится в корневом(root) каталоге, который часто называется public_html или www (или по названию имени вашего сайта):

Надо отметить, что файл robots.txt для WordPress, устанавливаемый по умолчанию, не доступен для вас ни из какого каталога. Он работает, но если вы захотите внести изменения, вам нужно создать ваш собственный файл и загрузить его в корневой каталог в качестве замены.

Мы рассмотрим несколько способов создания файла robots.txt для WordPress за минуту. А сейчас давайте обсудим, как определить, какие правила нужно включить в файл.

Какие правила нужно включить в файл robots.txt для WordPress

В предыдущем разделе мы видели пример генерируемого WordPress файла robots.txt. Он включает в себя только два коротких правила, но для большинства сайтов их достаточно. Давайте взглянем на два разных файла robots.txt и рассмотрим, что каждый из них делает.

Вот наш первый пример файла robots.txt WordPress:

User-agent: *
Allow: /
# Disallowed Sub-Directories
Disallow: /checkout/
Disallow: /images/
Disallow: /forum/

Этот файл robots.txt создан для форума. Поисковые системы обычно индексируют каждое обсуждение на форуме. В зависимости от того, какая тематика вашего форума, вы можете захотеть запретить индексацию. Так, например, Google не будет индексировать сотни коротких обсуждения пользователей. Вы также можете установить правила, указывающие на конкретную ветвь форума, чтобы исключить её, и позволить поисковым системам обходить остальные.

Вы также заметили строку, которая начинается с Allow: / вверху файла. Эта строка говорит ботам, что они могут сканировать все страницы вашего сайта, кроме установленных ниже ограничений. Также вы заметили, что мы установили эти правила как универсальные (со звёздочкой), как было в виртуальном файле WordPress 

robots.txt.

Давайте проверим другой пример файла WordPress robots.txt:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: Bingbot
Disallow: /

В этом файле мы устанавливаем те же правила, что идут в WordPress по умолчанию. Хотя мы также добавляем новый набор правил, которые блокируют поисковых роботов Bing от сканирования нашего сайта. Bingbot, как можно понять, это имя робота.

Вы можете совершенно конкретно задавать поисковых роботов отдельного движка для ограничения/разрешения их доступа. На практике, конечно, Bingbot очень хороший (даже если не такой хороший, как Googlebot). Однако, есть и много вредоносных роботов.

Плохой новостью является то, что они далеко не всегда следуют инструкциям из файла robots.txt (они же всё же работают как террористы). Следует иметь в виду, что, хотя большинство роботов будут использовать указания, представленные в этом файле, но вы не можете принудить их это делать. Мы просто хорошо просим.

Если глубже вникнуть в тему, вы найдёте много предложений того, что разрешать и что блокировать на своём сайте WordPress. Хотя, из нашего опыта, меньше правил часто лучше. Вот пример рекомендованного вида вашего первого файла robots.txt:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/

Традиционно WordPress любит закрывать каталоги wp-admin и wp-includes. Однако, это уже не является лучшим решением. Плюс, если вы добавляете мета тэги для своих изображений с целью продвижения (SEO), нету смысла указывать ботам не отслеживать содержимое этих каталогов. Вместо этого, два правила выше обеспечивают основные потребности большинства сайтов.

Что содержится в вашем файле robots.txt будет зависеть от особенностей и потребностей вашего сайта. Поэтому смело проводите больше исследований!

Как создать файл robots.txt для WordPress (3 способа)

Как только вы решили сделать свой файл robots.txt, всё что осталось – это найти способ его создать. Вы можете редактировать robots.txt в WordPress, используя плагин или вручную. В этом разделе мы обучим вас применению двух наиболее популярных плагинов для выполнения этой задачи и обсудим, как создать и загрузить файл вручную. Поехали!

1. Использование плагина Yoast SEO

Yoast SEO вряд ли требует представления. Это наиболее известный SEO-плагин для WordPress, он позволяет вам улучшать ваши записи и страницы для лучшего использования ключевых слов. Кроме этого, он также оценит ваш контент с точки зрения удобности чтения, а это повысит аудиторию поклонников.

Наша команда является почитателями плагина Yoast SEO благодаря его простоте и удобству. Это относится и к вопросу создания файла robots.txt. Как только вы установите и активируете свой плагин, перейдите во вкладку SEO › Инструменты в своей консоли и найдите настройку Редактор файлов:

Нажав на эту ссылку, вы можете редактировать файл .htaccess не покидая админ консоль. Здесь же есть кнопка Создать файл robots.txt:

После нажатия на кнопку во вкладке будет отображён новый редактор, где вы можете напрямую редактировать ваш файл robots.txt. Обратите внимание, что Yoast SEO устанавливает свои правила по умолчанию, которые перекрывают правила существующего виртуального файла robots.txt.

После удаления или добавления правил нажимайте кнопку Сохранить изменения в robots.txt для вступления их в силу:

Это всё! Давайте теперь посмотрим на другой популярный плагин, который позволит нам выполнить эту же задачу.

2. Применение плагина All in One SEO Pack

Плагин All in One SEO Pack – ещё один прекрасный плагин WordPress для настройки SEO. Он включает в себя большинство функций плагина Yoast SEO, но некоторые предпочитают его потому что он более легковесный. Что касается файла robots.txt, его создать в этом плагине также просто.

После установки плагина, перейдите на страницу All in One SEO > Управление модулями в консоли. Внутри вы найдёте опцию Robots.txt с хорошо заметной кнопкой Activate внизу справа. Нажмите на неё:

Теперь в меню All in One SEO будет отображаться новая вкладка Robots.txt. Если вы нажмёте на этот пункт меню, вы увидите настройки для добавления новых правил в ваш файл, сохраните внесённые изменения или удалите всё:

Обратите внимание, что вы не можете напрямую изменять файл robots.txt при помощи этого плагина. Содержимое файла будет неактивным, что видно по серому фону поля, в отличие от Yoast SEO, который позволяет вам вводить всё, что вы хотите:

Но, так как добавление новых правил очень простая процедура, то этот факт не должен расстроить вас. Более важный момент, что All in One SEO Pack также включает функцию, которая поможет вам блокировать «плохих» ботов, её вы можете найти во вкладке All in One SEO:

Это всё, что вам нужно сделать, если вы выбрали этот способ. Теперь давайте поговорим о том, как вручную создать файл robots.txt, если вы не хотите устанавливать дополнительный плагин только для этой задачи.

3. Создание и загрузка файла 

robots.txt для WordPress по FTP

Что может быть проще, чем создание текстового файла txt. Всё, что вам нужно сделать, открыть свой любимый редактор (как, например, Notepad или TextEdit) и ввести несколько строк. Потом вы сохраняете файл, используя любое имя и расширение txt. Это буквально займёт несколько секунд, поэтому вы вполне можете захотеть создать robots.txt для WordPress без использования плагина.

Вот быстрый пример такого файла:

Мы сохранили этот файл локально на компьютере. Как только вы сделали свой собственный файл вам нужно подключиться к своему сайту по FTP. Если вы не совсем понимаете, как это сделать, у нас есть руководство, посвящённое этому – использование удобного для новичков клиента FileZilla.

После подключения к своему сайту перейдите в каталог public_html. Теперь, всё что вам нужно сделать это загрузить файл robots.txt со своего компьютера на сервер. Вы можете это сделать либо нажав правой кнопкой мыши на файле в локальной FTP навигаторе или простым перетаскиванием мышью:

Это займёт всего несколько секунд. Как вы видите, этот способ не сложнее использования плагина.

Как проверит WordPress robots.txt и отправить его в Консоль Google Search

Теперь, когда ваш файл WordPress robots.txt создан и загружен на сайт, вы можете проверить его на ошибки в Консоли Google Search. Search Console – это набор инструментов Google, призванных помочь вам отслеживать то, как ваш контент появляется в результатах поиска. Один из таких инструментов проверяет robots.txt, его вы можете использовать перейдя в своей консоли в раздел Инструмент проверки файла robots.txt:

Здесь вы найдёте поле редактора, где вы можете добавить код своего файла WordPress robots.txt, и нажать Отправить в правом нижнем углу. Консоль Google Search спросит вас, хотите ли вы использовать новый код или загрузить файл с вашего сайта. Выберите опцию, которая говорит Ask Google to Update для публикации вручную:

Теперь платформа проверит ваш файл на ошибки. Если будет найдена ошибка, информация об этом будет показана вам.
Вы ознакомились с несколькими примерами файл robots.txt WordPress, и теперь у вас есть ещё больше шансов создать свой идеальный!

Заключение

Чтобы быть уверенным, что ваш сайт представлен наилучшим образом для поисковых роботов стоит позаботиться о том, чтобы для них был открыт необходимый контент. Как мы увидели, хорошо настроенный файл robots.txt WordPress поможет показать роботам, каким образом лучше взаимодействовать с вашим сайтом. Таким образом, они помогут тем, кто ищет получить более релевантный и полезный контент.

У вас остались вопросы о том, как редактировать robots.txt в WordPress? Напишите нам в разделе комментариев ниже!

Правильный robots.txt для WordPress в 2020 году

Несмотря на громкий заголовок, мой robots.txt не «Священный Грааль», но при этом все его директивы отражают суть движка WordPress и принцип работы основных поисковиков. Пример моего roborts.txt, который я приведу в этой статье, взят не из головы, а выстрадан в прямом смысле. Мне пришлось пройти через многие проблемы, которые всегда приводило к падению трафика из-за недоступности полезных ресурсов или наоборот, доступности некачественных страниц, в результате чего я пришел к этой версии robots.txt.

Что такое robots.txt и какая от него польза

Все мы знаем что roborts.txt нужен для SEO, но в чем именно заключается его работа и благодаря чему он улучшает качество сайта, знают немногие. Именно непонимание природы roborts.txt и его логики ведет к серьезным ошибкам результат которых неправильное индексирование сайта поисковиками.

Какие задачи решает roborts.txt? Да по большому счету задач немного, их по сути две:

  1. Сокрытие от поисковиков малоинформативных страниц.
  2. Экономия краулингового бюджета.

Задачи две, но решаются они одним действием. Закрывая от поисковиков некачественные страницы, мы автоматически экономим краулинговый бюджет. Для чего необходима экономить краулинговый бюджет? Ответ довольно прост, для оперативного индексирования новых страниц на вашем сайте. Давайте рассмотрим это на простом примере:

Как-то мне в руки попался интернет-магазин, у которого было около 800 товаров и несколько десятков статей в блоге плюс кучка технических страниц. В общей сложности полезных страниц на сайте было чуть больше 1000. Предположим вы решили внести изменения на некоторые страницы, несколько товаров удалили, а несколько добавили. Допустим у вас получилось 1043 страницы. Давайте посчитаем сколько времени понадобится роботу того же Яндекса чтобы обойти весь сайт и найти измененные страницы, узнать об удаленных и добавить в индекс новые. При максимальной скорости обхода (30 запросов в секунду) Яндексу потребуется всего 34,8 сек для обхода сайта, а при минимальной (0,6 запроса в секунду) уже 29 минут. Но проблема этого интернет-магазина была в том, что у него был неправильно заполненный robots.txt и в индексе было свыше 7000 страниц при свыше 4 млн загруженных. То есть чтобы выискать нормальные страницы на сайте, ботам поисковиков нужно было обойти свыше 4 миллионов страниц. По времени это займет:

  • 37 часов на максимальной скорости обхода
  • 77,1 суток, то есть больше двух месяцев

Само собой максимальную скорость обхода сможет выдержать далеко не каждый сайт и само собой поисковики стараются использовать низкую скорость обхода. В итоге любое изменение на сайте замечалось поисковиками через продолжительное время, а обилие страниц низкого качества в поиске, ухудшало и качество сайта. Только одной директивой «Disallow: *?*» я закрыл доступ к нескольким миллионам страниц. Спросите откуда миллионы страниц? Из-за фильтров интернет-магазина, движок самописный и не очень грамотный в техническом плане.

Таким образом robots.txt — это инструмент управления индексацией сайта. Настроили грамотно — новые странички будут оперативно залетать в индекс, а отредактированные быстро переиндексироваться. Если напихали директив от балды — прощай позиции, трафик и оперативное обновление индекса.

Почему стандартный robots.txt бесполезен

У WordPress нет стандартного robots.txt, но его создает в частности плагин YoastSEO (за другие не знаю). В этом, автоматически созданном, robots.txt имеется всего две директивы для всех роботов:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Удивительно что создатели плагина для SEO-оптимизации не смогли подготовить универсальный robots.txt. Я не понимаю зачем закрывать от индексации эти две директории, если там нечего индексировать. И многие владельцы сайтов почему-то втыкают «Disallow: /wp-admin» без малейшей попытки пораскинуть мозгами и понять что админка редиректит на страницу авторизации если ты не авторизован и индексировать там нечего. Также и «wp-includes» бессмысленно закрывать, поисковики там ничего не найдут полезного для себя поскольку нечего там индексировать.

Наша с вами задача не описать в robots.txt куда можно, а куда нельзя поисковику используя директивы «disallow» и «allow» налево и направо, а исключить из индекса страницы, которых там быть не должно. Для этого вам самим кроме копипаста придется ещё и информацию из кабинетов для веб-мастеров поизучать на предмет ненужных страниц в индексе поисковиков.

Я вам дам совет исходя из своего опыта на базе моего сайта, по-этому скопировав мой пример, дополните его своими директивами, наверняка у вас есть на сайте не совсем стандартные для WrdPress страницы, которые поисковикам нет смысла индексировать.

Кто стучится в дверь ко мне

Прежде чем нафаршировать свой robots.txt директивами, давайте сначала разберемся с тем, кто вообще ползает по нашему сайту. На самом деле роботов, кои топчутся по нашим с вами сайтам, превеликое множество. Среди них есть несколько известных, а ещё больше неизвестных, которым плевать на robots.txt. Давайте разберемся что это за роботы и как с ними быть.

Роботы Яндекса

Обратите внимание на то, что многие вебмастеры добавляют в robots.txt для Яндекса user-agent: Yandex, но мало кто понимает разницу между Yandex  и YandexBot, а разница весьма существенна.

User-agent: YandexBot # будет использоваться только основным индексирующим роботом

User-agent: Yandex # будет использована всеми роботами Яндекса

Какие вообще бывают боты у Яндекса? Их множество, вот некоторые из них:

  • YandexBot — основной индексирующий робот.
  • YandexImages — индексатор Яндекс.Картинок.
  • YandexMedia — робот, индексирующий мультимедийные данные.
  • YandexPagechecker — валидатор микроразметки.
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, особым образом интерпретирует robots.txt.

Полный список роботов Яндекса смотрите на этой странице.

Роботы Google

  • Googlebot — основной индексирующий робот
  • Googlebot-Image — робот индексирующий изображения.
  • Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.

Полный список роботов Google смотрите на этой странице.

Робот Twitter

Полезный робот, который ходит на наш сайт за расширенной информацией когда кто-либо в твиттере делится ссылкой на наш сайт. Чтобы вместо ссылки появлялся красивый пост, то надо явно в robots.txt разрешить доступ к сайту роботу твиттера.

Директивы robots.txt, параметры и логика работы

Несмотря на свою простоту и элементарность, даже у опытных сеошников порой возникают трудности с составлением параметров для директив. Что там говорить, я сам не исключение и иногда допускаю ошибки при закрытии URL от индексации и потом приходится разгребать последствия.

В нашем распоряжении по сути несколько директив

User-Agent

С этой директивы начинается блок правил, а её значение указывает на то, для какого поисковика предназначается данный набор правил. Например, значение «YandexBot» обозначает что этот блок предназначен исключительно для основного Яндекс бота, а значение директивы «*» говорит что этот блок для всех роботов.

Причем необходимо понимать логику интерпретации директивы «User-agent» ботами Яндекса, если в файле robots.txt присутствует две директивы «User-agent: *» и  «User-agent: Yandex», то блок директив после «User-agent: *» будет проигнорирован ботами Яндекса. По этой причине для основного бота Яндекса я выделяю отдельный блок, второй для всех остальных. Почему именно так, вы поймете ниже, когда я объясню назначение директив.

Disallow и Allow

Собственно основные директивы файла robots.txt. Данные директивы запрещают или разрешают поисковикам индексировать страницу или раздел указанный в значении данной директивы. В качестве параметра этим директивам мы передаем часть URL страниц, которые необходимо запретить индексировать или разрешить к индексации.

Иногда меня спрашивают зачем нужна Allow? Логика вопрошающего очевидна, если с помощью Disallow мы запретили некоторые вещи, то получается все остальное доступно, а значит не запрещено. Но давайте рассмотрим простой пример:

  • Disallow: *?* — запретит к индексации все страницы ссылки на которые содержат «?».

Каковы последствия работы такой директивы? Последствия такой директивы вот такие:

Спросите в чем связь? Ответ не очевиден, но он прост. Вышеуказанной директивой мы запрещаем роботам загружать файлы стилей, ссылка на которые содержит «?ver=5.1.1». А стили темы оформления отвечают за адаптивность дизайна, которая как раз и определяет оптимизацию сайта под мобильные устройства. Тут нас как раз спасает директива Allow:

Таким образом мы вернем доступ роботам к файлам стилей и наш сайт станет снова оптимизированным под мобильные устройства.

Знак «*» заменяет нам один или несколько символов, но его использование не всегда очевидно. Давайте поиграемся с примерами.

Данная директива запретит к индексации все страницы, ссылки которых начинаются с /news. Например:

  • /news/hello-world
  • /news/finance
  • /news/auto

А вот ссылки такого плана:

Такая директива уже не закроет. А что будет, если мы добавим вот такую директиву:

Тогда мы запретим доступ роботам ко всем ссылкам, коиторые имеют в себе вхождение «news». Например:

  • /news/hwllo-world
  • /its-fake-news

Как видите с директивами нужно быть крайне осторожным в их формулировке.

Также стоит особо отметить один немаловажный нюанс — это порядок обработки директив. Да, да, вне зависимости от того, как вы их расположите в файле robots.txt, они будут отсортированы и применены в порядке возрастания. То есть первыми будут применены короткие,, а самые длинные последними.

Является ли это важным? Весьма. Чем длиньше параметр директивы, тем больше её приоритет. Допустим у нас с вами в robots.txt есть несколько директив, выстроим их в порядок возрастания и посмотрим на логику робота:

  • Disallow: /
  • Allow: /news
  • Allow: /catalog

Таким образом получается так, первым делом робот видит что первая директива запрещает ему индексировать весь сайт, но вторая и третья открывают ему раздели новостей и каталог. Таким образом мы можем сначала запретить весь сайт, а потом открывать только те части, которые необходимо индексировать. Обычно при составлении директив robots.txt мы руководствуемся другой логикой, поскольку обычно запрещаем те вещи, на которые ругается Яндекс или Google.

Одинм из важных моментов является наличие кириллицы в URL, который мы хотим запретить или открыть. Поскольку я категорически не приемлю кириллицу в URL, я не сталкивался с проблемами связанными с кириллицей, но некоторые сайты в принципе не парятся по этому поводу. Допустим на сайте надо скрыть страницу, доступную по ссылке «/каталог»:

  • Disallow: /каталог — не правильно.
  • Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 — правильно.

Host

Устаревшая директива, которая указывала ботам Яндекса, какое зеркало делать основным. Вот что Яндекс говорит по поводу этой директивы:

Как мы писали ранее, мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект. Вебмастерам, которые, по нашим данным, ещё не установили перенаправление, мы отправили соответствующее уведомление.

Источник

Sitemap

Соответственно эта директива указывает путь к файлу sitemap. Эта директива является межсекционной, то есть её достаточно указать всего лишь один раз. Обычено она указывается в самом конце файла robots.txt. Добавление директивы Sitemap в каждую секцию «User-agent» является ошибкой.

Где взять sitemap? За генерацию этой штуки отвечает SEO-плагин, в моем случае это Yoast SEO. Содержимое этого файла зависит от настроек отображения в поисковой выдаче, которые располагаются в одноименном разделе плагина.

Crawl-delay

Указывает поисковому роботу промежуток времени в секундах, который должен пройти с момента окончания загрузки одной страницы и началом загрузки другой. Значением директивы может быть любое число как целое, так и дробное.

На текущий момент по сути бесполезная директива, поскольку роботы Google и Яндекс не отказались от учета директивы Crawl-delay. Таймаут роботам можно указать в панели вебмастера.

Clean-param

Если на Вашем сайте используются параметры, которые не влияют на отображение страницы, то в значении этой директивы Вы можете указать эти параметры. Допустим у Вас на сайте есть каталог, в котором пользователю доступны некоторые возможности, такие как сортировка, допустим ссылка выглядит так:

  • http://site.ru/catalog.php?sort_by=price&sort=desc

Что бы указать роботу на параметры, которые необходимо исключить, то нам потребуется указать директиву с соответствующими параметрами:

  • Clean-param: sort_by /catalog.php # если необходимо исключить только sort_by
  • Clean-param: sort_by&sort /catalog.php # если необходимо исключить  sort_by и  sort

Лично я не пользуюсь подобной директивой, поскольку её логика работы не очевидна. На мой взгляд проще всего страницы с параметрами проще закрыть директивой «Disallow», тем самым явно сэкономив краулинговый бюджет.

Что нужно закрыть от индексации в WordPress

Предлагаю не просто скопировать готовый robots.txt, а попытаемся понять, почему мы закрыли от индексации именно эти страницы.

  • Disallow: /cgi-bin — по сути такая же бесполезная директива как и «Disallow: /wp-admin», но до тех пор, пока не начнете работать с Cloudflare, например ради халявного SSL, тогда на сайте появляется куча ссылок, которые начинаются с «/cgi-bin».
  • Disallow: /xmlrpc.php — закрываем из-за пустой страницы при обращении к этому файлу.
  • Disallow: /author — с точки зрения поиска, это бесполезная страница.
  • Disallow: /wp-json — закрываем ибо возвращает пустую страницу.
  • Disallow: /wp-login.php — закрываем ибо эта страница является малоинформативной и не несет в себе смысловой нагрузки выполняя чисто техническую роль.
  • Disallow: */feed* — RSS-лента, очевидно не несет в себе пользы для поисковиков.
  • Disallow: /wp-content/uploads — закрываем именно эту папку, поскольку она может содержать разного рода документы, например, PDF, DOC и т.д., которые не стоит пускать в индекс. Закрывать «wp-content» полностью чревато проблемами.
  • Disallow: /category — страница категорий, естественно при определенных настройках постоянных ссылок. Категории также являются малоинформативными страницами, если конечно вы не уделили этому внимания и не наполнили каждую категорию полезной информацией, в ином случае лучше прикрыть, поисковикам там делать нечего.
  • Disallow: /attachment — закрываем страницы вложений. Не всегда они бывают доступны по ссылке, но лучше перебдеть. Один раз мне эти странички, высыпавшись в индекс, не хило так посещалку обвалили.
  • Disallow: */page/ — закрываем пагинацию. В сети существует много споров закрывать или не закрывать страницы пагинации, но я закрываю. Некоторые SEOшники говорят что таким образом мы лишаемся некоторых внутренних факторов в виде анкоров во внутренних ссылках. Но я считаю эти страницы малоинформативными, а внутренние факторы не такими важными. В моем случае пользы от прикрытия пагинации больше чем от открытия, при 100+ страницах в индексе мой сайт посещает почти 2 000 человек в сутки и этот показатель растет.

Ну вот по сути это основные моменты, которые стоит прикрыть от поисковых роботов на сайте с CMS WordPress.

Мой вариант robots.txt

#Разрешаем роботу Яндекса, который индексирует изображения, доступ к папке с вложениями.
User-Agent: YandexImages
Allow: /wp-content/uploads

#Делаем тоже самое для гугловского бота, которые индексирует изображения
User-Agent: Googlebot-Image
Allow: /wp-content/uploads

#Говорим рекламе что сайт весь в её распоряжении
User-agent: Mediapartners-Google
Allow: /

#Открываем доступ твиттеру
User-agent: Twitterbot
Allow: /

#Поскольку Яндекс проигнорирует секцию с User-agent: *, то придется перечислить все для него
User-Agent: YandexBot
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /blog
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: */feed*
Allow: /feed/turbo/ #открываем доступ к RSS для турбостраниц ибо чуть выше мы запретили к ним доступ.
Disallow: /wp-content/uploads
Disallow: /category
Disallow: /attachment
Disallow: */page/
Disallow: *?*
Disallow: */amp #закрываем доступ к AMP-страницам
Allow: *.css?ver=*

User-Agent: *
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: *readme.txt
Disallow: /blog
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: */feed*
Disallow: /wp-content/uploads
Disallow: /category
Disallow: /attachment
Disallow: */page/
Disallow: *?*
Allow: *?ver=*

Sitemap: https://dampi.ru/sitemap_index.xml

Некоторые директивы я прокомментировал, которые не описал в главе выше.

Добавление robots.txt в WordPress

По сути в случае с сайтом на WordPress существует три способа редактирования и соответственно загрузки robots.txt на наш сайт, но рассмотрю я только два, характерных именно для WordPress, поскольку третий — это загрузка файла по FTP и этот способ универсален. Давайте рассмотрим эти два способа.

Способ первый: с помощью специального плагина

Не надо качать FTP-киент, лезть на сервер, создавать текстовый файл, а потом каждый раз из-за каждой мелочи снова и снова соваться туда. Есть вполне себе изящное решение в виде простого плагина, который создает «виртуальный» robots.txt.

С установкой разберетесь сами, там ничего сложного. После установки и активации плагина необходимо пройти на страницу с настройками этого плагина

Страница настроек предельно проста, там всего лишь текстовое поле, куда надо поместить наши директивы и один чекбокс, отметив который мы указываем плагину что необходимо подтереть свои настроки при деактивации.

Как видите ничего сверх естественного. Подтираем дефолтный текст и вбиваем наши директивы.

Способ второй: с помощью SEO-плагинов

Поскольку я пользуюсь плагином Yoast SEO, то расскажу на его примере. Для создания и редактирования файла robots.txt необходимо пройти в раздел «Инструменты» плагина:

Нас интересует «Редактор файлов», переходим туда и уже там видим следующее:

У меня файл robots.txt физически отсутствует ибо он создается плагином «на лету», иначе тут было бы видно его содержимое. Вам остается выбрать подходящий способ редактирования, скопировать директивы нашего robots.txt и сохранить. Дальше вам потребуется отслеживать поведение вашего сайта в поиске.

Проверка robots.txt в панели вебмастера

Для проверки правильности robots.txt у Яндекс и Google предусмотрены специальные инструменты. Использование данных инструментов довольно элементарный процесс. Давайте рассмотрим оба варианта.

Search Console от Google

В соответствующем разделе мы видим содержимое нашего robots.txt

Кроме содержимого robots.txt мы видим сообщения с ошибками и предупреждениями. В моем случае их счетчики по нолям. В поле ниже мы можем указать URL, который хотим проверить. Если введенный нами URL запрещен в файле robots.txt, то вы увидите сообщение справа и выделенную директиву, которая запрещает индексирование данного URL. Вполне удобно.

Яндекс Вебмастер

Проходим в «Инструменты»->«Анализ robots.txt» и видим вот такую картину.

Эта страница устроена чуть сложнее. Страница разделена на три части, в первой все содержимое robots.txt, вторая часть показывает какие директивы использует основной робот, а третья часть отвечает за проверку URL. Обратите внимание на то, что тут поле позволяет проверять URL пачками, что гораздо удобнее чем в инструменте проверки от Google.

Как добавить robots.txt в Яндекс и Google

В отличии от sitemap, адрес которого необходимо указывать в robots.txt или в панели вебмастера, robots.txt не нужно никуда загружать. Его наличие поисковые роботы проверяют каждый раз обращаясь к сайту. По этой причине для «загрузки robots.txt» в Яндекс и Google достаточно просто создать его на своем сайте.

Имя этого файла и его расположение является жестким требованием и соответственно все знают что robots.txt лежит в корне сайта. По этому кроме его создания и заполнения никаких действий больше не требуется, разве что проверить его на ошибки, с помощью описанных выше инструментов.

Как настроить robots txt для сайта WordPress. Как создать robots txt для WordPress

От автора: одним из файлов, которые используют поисковики при индексации вашего сайта, есть файл robots.txt. Не сложно понять из названия файла, что он используется для роботов. И действительно, этот файл позволяет указать поисковому роботу что можно индексировать на вашем сайте, а что вы не хотите видеть в поисковом индексе. Итак, давайте посмотрим, как настроить robots txt для сайта WordPress.

Статей на эту тему в сети множество. Практически в каждой из этих статей можно найти свой вариант файла robots txt, который можно взять и использовать практически без правок на своем сайте WordPress. Я не буду в очередной раз переписывать в данной статье один из таких вариантов, поскольку особого смысла в этом нет — все эти варианты вы без труда сможете найти в сети. В этой же статье мы просто разберем, как как создать robots txt для WordPress и какой минимум правил там должен быть.

Начнем с того, где должен располагаться файл robots.txt и что в него писать. Данный файл, как и файл sitemap.xml, должен быть расположен в корне вашего сайта, т.е. он должен быть доступен по адресу //site/robots.txt

Попробуйте обратиться по такому адресу, заменив слово site адресом вашего сайта. Вы можете увидеть при этом примерно такую картину:

Бесплатный курс «Основы создания тем WordPress»

Изучите курс и узнайте, как создавать мультиязычные темы с нестандартной структурой страниц

Скачать курс

Хотя можете увидеть и вот такую картину:

Странная ситуация — скажете вы. Действительно, адрес один и тот же, но в первом случае файл доступен, во втором — нет. При этом если заглянуть в корень сайта, то никакого файла robots.txt вы там не обнаружите. Как так и где же находится robots.txt в WordPress?

Все дело в простой настройке — это настройка ЧПУ. Если на вашем сайте включены ЧПУ, тогда вы увидите динамически сгенерированный движком robots.txt. В противном случае будет возвращена ошибка 404.

Включим ЧПУ в меню Настройки — Постоянные ссылки, отметив настройку Название записи. Сохраним изменения — теперь файл robots.txt будет динамически генерироваться движком.

Как видно на первом рисунке, в этом файле используются некие директивы, задающие определенные правила, а именно — разрешить или запретить индексировать что-либо по заданному адресу. Как несложно догадаться, директива Disallow запрещает индексирование. В данном случае это все содержимое папки wp-admin. Ну а директива Allow разрешает индексирование. В моем случае разрешено индексирование файла admin-ajax.php из запрещенной выше папки wp-admin.

В общем, поисковикам этот файл, конечно, без надобности, даже и не представляю, из каких соображений WordPress прописал это правило. Ну да мне и не жалко, в принципе

К слову, я специально добавлял выше фразу «в моем случае «, поскольку в вашем случае содержимое robots.txt уже может отличаться. Например, может быть запрещена к индексированию папка wp-includes.

Кроме директив Disallow и Allow в robots.txt мы видим директиву User-agent, для которой в качестве значения указана звездочка. Звездочка означает, что идущий далее набор правил относится ко всем поисковикам. Также можно вместо звездочки указывать названия конкретных поисковиков. Файл robots.txt поддерживает и другие директивы. Я на них останавливаться не буду, все их с примерами можно посмотреть в консоли для веб-мастеров Гугла или Яндекса. Также можете прочесть информацию на данном сайте.

Как создать robots txt для WordPress

Итак, файл для поисковых роботов у нас есть, но вполне вероятно, что он вас не устроит в текущем виде. Как же составить свой файл. Здесь есть несколько вариантов. Начнем с первого — ручное создание файла. Создайте обычный текстовый документ в блокноте и сохраните его под именем robots с расширением txt. В этом файле запишите необходимый набор правил и просто сохраните его в корень вашего сайта WordPress, рядом с файлом конфигурации wp-config.php.

На всякий случай проверьте, что файл загрузился и доступен, обратившись к нему из браузера. Это был первый способ. Второй способ — это все та же динамическая генерация файла, только теперь это сделает плагин. Если вы используете популярный плагин All in One SEO, тогда можно воспользоваться одним из его модулей.

Сначала этот модуль нужно включить. Идем в меню All in One SEO — Управление модулями и активируем модуль Robots.txt.

После этого в меню плагина появится новый пункт — Robots.txt. Перейдем туда и увидим уже предлагаемый набор правил, который можно сохранить.

Давайте сохраним и проверим изменения, обратившись на сайте WordPress к robots.txt.

Как видим, все работает. Теперь вы можете написать robots txt для WordPress на свой вкус и так, как вам нужно. Ну а у меня на этом все. Удачи!

Бесплатный курс «Основы создания тем WordPress»

Изучите курс и узнайте, как создавать мультиязычные темы с нестандартной структурой страниц

Скачать курс

WordPress-Ученик

12 фишек без которых Вы не создадите полноценный сайт на WordPress!

Смотреть

Настройка robots.txt для SEO [АйТи бубен]

Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP.

robots.txt — файл ограничения доступа к содержимому роботам на Методы и структура протокола HTTP- сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Обязательно ли использовать на сайте файл robots.txt? Использование файла добровольно. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Отсутствие файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно не влияет на нормальное сканирование и индексирование сайта.

Стандарт был принят консорциумом 30 января 1994 года в списке рассылки [email protected] и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Что такое ссылка URL -ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Запрет доступа всех роботов ко всему сайту в файле robots.txt — это и есть закрытие от индексирования сайта

User-agent: *
Disallow: /

Но директивы которые прописываются в robots.txt это рекомендации поисковому роботу, а не строгие правила. Известны случаи когда сайт закрытый в robots.txt попадал в индекс.

Поэтому добавляем в мета-тег в раздел head.

<meta name="robots" content="noindex, nofollow"/>

Вот теперь мы точно закрыли сайт от индексирования! Удачно вам выпасть из индекса!

User-agent: googlebot
Disallow: /private/

Официальное руководство Google рекомендует:

Для временной приостановки сканирования всех URL следует отобразить для них код ответа HTTP 503 (в том числе и для файла robots.txt). Робот Google будет периодически пытаться получить доступ к файлу robots.txt до тех пор, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование путем внесения изменений в файл robots.txt.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

Существует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.

Он достаточно сложный и лучше его использовать в образовательных целях. Я обычно использую более простой вариант robots.txt.

Не забудьте заменить your_domen на имя вашего домена

robots.txt
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /shop
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: */feed/*
Disallow: /*?*
Allow: /wp-content/uploads/
Allow: /wp-content/*.js$
Allow: /wp-content/*.css$
Allow: /wp-includes/*.js$
Allow: /wp-includes/*.css$
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
 
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /shop/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: */feed/*
Disallow: /*?*
Allow: /wp-content/uploads/
Allow: /wp-content/*.js$
Allow: /wp-content/*.css$
Allow: /wp-includes/*.js$
Allow: /wp-includes/*.css$
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
 
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/
 
Host: https://your_domen/
Sitemap: https://your_domen/sitemap_index.xml

Директива host уже не нужна! 12 марта 2018 года Яндекс в своем блоге для вебмастеров анонсировал скорое прекращение поддержки директивы Host, а уже 20 марта констатировал сей факт, сопроводив его новыми подробными инструкциями по переезду с помощью 301-го редиректа.

Яндекс наконец-то хоть как-то унифицирует свою деятельность, а то достал своими заморочками.

robots.txt
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Sitemap: https://catsplanet.club/sitemap_index.xml

правильный пример на WordPress для Яндекса и Google

Всем привет! Сегодня я бы хотел Вам рассказать про файл robots.txt. Да, про него очень много чего написано в интернете, но, если честно, я сам очень долгое время не мог понять, как же создать правильный robots.txt. В итоге я сделал один и он стоит на всех моих блогах. Проблем с индексацией сайта я не замечаю, robots.txt работает просто великолепно.

Robots.txt для WordPress

А зачем, собственно говоря, нужен robots.txt? Ответ все тот же – продвижение сайта в поисковых системах. То есть составление robots.txt – это одно из частей поисковой оптимизации сайта (кстати, очень скоро будет урок, который будет посвящен всей внутренней оптимизации сайта на WordPress. Поэтому не забудьте подписаться на RSS, чтобы не пропустить интересные материалы.).

Одна из функций данного файла – запрет индексации ненужных страниц сайта. Также в нем задается адрес карты сайта sitemap.xml и прописывается главное зеркало сайта (сайт с www или без www).

Примечание: для поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt. Чтобы узнать, какое главное (с www или без www), просто наберите адрес своего сайта в браузере, к примеру, с www, если Вас автоматически перебросит на тот же сайт без www, значит главное зеркало Вашего сайта без www. Надеюсь правильно объяснил.

Было:

Стало (после перехода на сайт, www автоматически удалились, и сайт стал без www):

Так вот, этот заветный, по-моему, правильный robots.txt для WordPress Вы можете увидеть ниже.

Правильный Robots.txt для WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: wpnew.ru
Sitemap: https://wpnew.ru/sitemap.xml.gz
Sitemap: https://wpnew.ru/sitemap.xml

Все что дано выше, Вам нужно скопировать в текстовой документ с расширением .txt, то есть, чтобы название файла было robots.txt. Данный текстовой документ Вы можете создать, к примеру, с помощью программы Notepad++. Только, не забудьте, пожалуйста, изменить в последних трех строчках адрес wpnew.ru на адрес своего сайта. Файл robots.txt должен располагаться в корне блога, то есть в той же папке, где находятся папки wp-content, wp-admin и др. .

Те, кому же лень создавать данный текстовой файл, можете просто скачать robots.txt и также там подкорректировать 3 строчки.

Хочу отметить, что в техническими частями, о которых речь пойдет ниже, себя сильно загружать не нужно. Привожу их для “знаний”, так сказать общего кругозора, чтобы знали, что и зачем нужно.

Итак, строка:

User-agent

задает правила для какого-то поисковика: к примеру “*” (звездочкой) отмечено, что правила для всех поисковиков, а то, что ниже

User-agent: Yandex

означает, что данные правила только для Яндекса.

Disallow
Здесь же Вы “засовываете” разделы, которые НЕ нужно индексировать поисковикам. К примеру, на странице https://wpnew.ru/tag/seo у меня идет дубль статей (повторение) с обычными статьями, а дублирование страниц отрицательно сказывается на поисковом продвижении, поэтому, крайне желательно, данные секторы нужно закрыть от индексации, что мы и делаем с помощью этого правила:

Disallow: /tag

Так вот, в том robots.txt, который дан выше, от индексации закрыты почти все ненужные разделы сайта на WordPress, то есть просто оставьте все как есть.

Host

Здесь мы задаем главное зеркало сайта, о котором я рассказывал чуть выше.

Sitemap

В последних двух строчках мы задаем адрес до двух карт сайта, созданные с помощью плагина Google XML Sitemaps.

Возможные проблемы

Если у Вас на блоге не стоит ЧПУ (именно так у меня происходит с тем сайтом, которого я занимаюсь продвижением), то с тем robots.txt, который дан выше, могут быть проблемы. Напомню, что без ЧПУ ссылки на сайте на посты выглядят примерно следующим образом:

А вот из-за этой строчки в robots.txt, у меня перестали индексироваться посты сайта:

Disallow: /*?*

Как видите, эта самая строка в robots.txt запрещает индексирование статей, что естественно нам нисколько не нужно. Чтобы исправить это, просто нужно удалить эти 2 строчки (в правилах для всех поисковиков и для Яндекса) и окончательный правильный robots.txt для WordPress сайта без ЧПУ будет выглядеть следующим образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: wpnew.ru
Sitemap: https://wpnew.ru/sitemap.xml.gz
Sitemap: https://wpnew.ru/sitemap.xml

Анализ robots.txt

Чтобы проверить, правильно ли мы составили файл robots.txt я рекомендую Вам воспользоваться сервисом Яндекс Вебмастер (как регистрироваться в данном сервисе я рассказывал тут).

Заходим в раздел Настройки индексирования –> Анализ robots.txt:

Уже там нажимаете на кнопку “Загрузить robots.txt с сайта”, а затем нажимаете на кнопку “Проверить”:

Если Вы увидите примерно следующее сообщение, значит у Вас правильный robots.txt для Яндекса:

Также Вы можете в “Список URL” добавить адрес любой статьи сайта, чтобы проверить не запрещает ли robots.txt индексирование данной страницы:

Как видите, никакого запрета на индексирование страницы со стороны robots.txt мы не видим, значит все в порядке :).

Надеюсь больше вопросов, типа: как составить robots.txt или как сделать правильным данный файл у Вас не возникнет. В этом уроке я постарался показать Вам правильный пример robots.txt:

 

Вы можете посмотреть другие варианты, как еще можно составлять robots.txt.

До скорой встречи!

P.s. Совсем недавно я добавил блог в Яндекс Каталог, что же интересного произошло? 🙂

Правильный файл robots.txt для WordPress 2020

7 февраля 2020 WordPress SEO

Самый оптимальный и простой код файла robots.txt для вашего сайта на WordPress, который подойдет для всех поисковиков. Этот вариант использую на данном сайте. Не забудьте заменить it-blog.ru на адрес вашего сайта.

Если вы используете HTTPS, в директиве Host: нужно указать главное зеркало сайта вместе с протоколом.
Если на сайте используются 2 карты сайта, то указываем каждую в новой строчке в директиве Sitemap. Например плагин Google XML Sitemap создает 2 карты: обычную и в сжатом виде.

User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге по умолчанию
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: */embed           # все встраивания

Allow: */uploads            # открываем uploads
Allow: /*/*.js              # внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.svg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.pdf            # файлы в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php

# Карта сайта
Sitemap: https://it-blog.ru/sitemap_index.xml 
# Карта сайта в сжатом виде если есть
#Sitemap: http://example.com/sitemap.xml.gz # сжатая версия (.gz)

# Главное зеркало сайта
Host: it-blog.ru

Если вам понравилась статья, вы можете отблагодарить автора любой суммой, какую сочтете для себя приемлемой:

Поделиться:

Похожие записи

Файл robots.txt — шпаргалка для начинающих

Любой человек, тем более тот, который только начинает свой путь вебмастера, не может сделать идеальный сайт для раскрутки в интернете и получения прибыли с него, если не знает предназначения основных файлов движка, который он использует. Однако существуют однотипные файлы, которые используют все CMS — системы.

Один из таких файлов является robots.txt. Именно ему и посвящена данная статья. Здесь мы рассмотрим правильное составление этого файла и расскажем о некоторых нюансах упрощения составления списка запрещенных страниц для собственного сайта.

Robots.txt – текстовый файл, открываемый обычным блокнотом. Находится он в корневом каталоге любого движка и состоит из списка запрещенных для отображения в поисковой выдаче страниц.


Каждая строка этого файла представляет собой ссылку на запрещенную к индексации поисковыми системами страничку. Иногда приходится запретить к показу несколько однотипных страничек.

Допустим, что у вас на сайте присутствуют теги, которые создаются как отдельная страничка с выдачей. Естественно, поисковым системам незачем отображать эту информацию, так как вы не только задублируете информацию, но и создадите совсем ненужную ссылку в поисковой выдаче.

Для более наглядного понимания стоит привести пример:

Site.com/tags/1
Site.com/tags/2
…

Таких тегов могут быть тысячи, чтобы не дублировать каждый тег новой строкой, можно ввести всего одну строку следующего вида:

Это значит, что в вашем домене будут заблокированы для выдачи в поиске все странички, имеющие в своем адресе фразу «tags» на втором уровне (сразу после доменного имени).

Главная идея этого файла состоит в том, чтобы запретить роботам поисковых систем отображать в поиске странички, которые будут либо дублировать информацию, либо отображать личную информацию пользователей сайта без предварительной регистрации.

Во-первых, это не позволяет получить пользователям интернета личную информацию пользователей ресурса, во-вторых, в поиске будут отображаться только необходимые вам страницы.


Это основные принципы, которыми руководствуются создатели сайтов, редактируя текстовый файл robots. Правильно оформив данный файл, вы позволите поисковым роботам индексировать только качественный контент со своего сайта.

Проверка на правильность оформления файла robots.txt для поисковых систем – одно из необходимых правил, если вы до этого ни разу не пользовались движком, не знаете всей его структуры или просто хотите лишний раз проверить свои знания, и убедиться в том, что ваш robots.txt правильный.

Провести проверку можно в специальных разделах для вебмастеров в самих поисковых системах. В Google Webmaster подобный инструмент находится во вкладке «Состояние» —> «Заблокированные URL». В окно вставьте строки вашего файла robots.txt и в нижнем окне введите ссылки на различные данные на вашем сайте для проверки блокировки.

На самом деле данная проверка не так проста, как вам кажется, ведь по сути придется проверить элементы «разных типов» сайта, например: категории, теги, странички, странички с параметрами и т.д. В результатах проверки вы увидите, какие странички разрешены для отображения в поисковых системах, а какие запрещены.

В Яндекс Вебмастере все абсолютно аналогично, за исключением того, что можно не вставлять строки в поле, а выгрузить сам файл непосредственно с сайта.

Как вариант, можно просмотреть карту сайта и с карты сайта «повытаскивать» несколько примеров ссылок для проверки на блокировку.

Если у вас нет времени на составление собственного файла robots.txt для поисковиков, можете воспользоваться стандартным списком и по необходимости дополнить его.

Пример правильного файла robots для wordpress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: site.com

Также в конце файла не забудьте указать ссылку на карту сайта:

Sitemap: http://site.com/sitemap.xml


Также в конце файла не забудьте указать ссылку на карту сайта:

Sitemap: http://site.com/sitemap.xml

Обратите внимание! Данный список является самым оптимальным вариантом, но подходит только для типичных сайтов без вмешательства в глобальный код движка/шаблона.

Учитывая факт, что идеальный вариант этого файла нужен каждому сайту, многие разработчики модулей и плагинов уже позаботились об его автоматическом создании. Сейчас вы можете без проблем найти специальный генератор в интернете. Один из наиболее простых и удобных в использовании находится здесь.

Сервисы подобные этому проводят тщательный анализ вашей карты сайта и составляют список дублей и ненужных страничек, делая идеальный robots.txt для вашего сайта. После генерации вам остается лишь скопировать строки в ваш файл, расположенный на сервере и все.


Обратите внимание! Файл Robots.txt не предназначен для полного сокрытия страниц от поисковых систем! Google, Yandex и прочие поисковые системы просто не выносят запрещенные страницы в поиск и не добавляют их в количество проиндексированных, но все равно сканируют их.

Если, к примеру, вы решите загнать в скрытую от индексации страницу какой-нибудь вирус или вредоносный скрипт, поисковая система все равно признает сайт вредоносным и возможно заблокирует доступ к нему.

Хотим обратить ваше внимание на то, что даже самый лучший генератор не способен сделать список блокируемых страниц идеальным. Максимально правильно может составить список блокируемых ссылок только владелец сайта или опытный специалист по SEO.

Поэтому, если в индексе поисковых систем появились нежелательные страницы вашего ресурса или вы не знаете, как правильно их скрыть, лучше всего обратиться за помощью к SEO-специалистам или попросить помощи на специализированном форуме, предоставив всю необходимую информацию.

Напоследок хотелось бы добавить, что действующие в данный момент алгоритмы Google проверяют правильное создание файла robots.txt, это в свою очередь влияет на релевантность выдачи сайта по запросам в поисковой системе Google.

Если вы начинающий вебмастер, не стоит спешить с оформлением или тупым копированием строк. Для начала изучите как можно больше информации и только потом приступайте к составлению файла robots.txt.

Удачного продвижения!

WordPress Robots.txt — Как добавить за несколько шагов

Недостаточно просто создать сайт. Попадание в список поисковых систем — основная цель всех владельцев веб-сайтов, чтобы веб-сайт стал видимым в поисковой выдаче по определенным ключевым словам. Этот список веб-сайтов и видимость самого свежего контента в основном обусловлены роботами поисковых систем, которые сканируют и индексируют веб-сайты.Веб-мастера могут контролировать способ, которым эти роботы анализируют веб-сайты, вставляя инструкции в специальный файл с именем robots.txt.

В этой статье я расскажу, как настроить файл robots.txt WordPress для лучшего SEO-оптимизации сайта. Обратите внимание, что некоторые страницы веб-сайта WordPress могут не индексироваться поисковыми системами.

Что такое файл Robots.txt?

Файл robots.txt — это текстовый файл, расположенный в корне вашего веб-сайта, который сообщает сканерам поисковых систем не сканировать части вашего веб-сайта.Он также известен как протокол исключения роботов, который не позволяет поисковым системам индексировать определенное бесполезное и / или определенное содержимое (например, вашу страницу входа и конфиденциальные файлы).

Короче говоря, robots.txt сообщает ботам поисковых систем, что им не следует сканировать на вашем веб-сайте.

Вот как это работает! Когда бот поисковой системы собирается сканировать URL-адрес вашего веб-сайта (то есть он будет сканировать и извлекать информацию, чтобы ее можно было проиндексировать), он сначала будет искать ваш файл robots.текст.

Зачем создавать Robots.txt для WordPress?

Обычно вам не нужно добавлять файл robots.txt для веб-сайтов WordPress. По умолчанию поисковые системы индексируют все сайты WordPress. Однако для лучшего SEO вы можете добавить файл robots.txt в свой корневой каталог, чтобы специально запретить поисковым системам доступ к определенным областям вашего веб-сайта WordPress.

IdeaBox — Пример использования

Прочтите, как Cloudways помогли агентству WordPress создавать лучшие продукты.

Спасибо

Ваша электронная книга в папке «Входящие».

Как создать Robots.txt для WordPress?

Войдите в панель управления управляемым веб-хостингом WordPress. В моем примере я использую Cloudways — платформу управляемого облачного хостинга.

Перейдите на вкладку Servers в верхней строке меню и получите доступ по SSH / SFTP из Server Management → Master Credentials .

Используйте любое приложение FTP-сервера для доступа к файлам базы данных WordPress.Для этого урока я использую FileZilla . Запустите его и подключитесь к вашему серверу, используя Master Credentials .

После подключения перейдите в папку / applications в файлах базы данных WordPress. Вы увидите там разные папки.

Теперь вернитесь на платформу Cloudways и в верхней левой панели перейдите к Applications . Выберите приложение, для которого вы хотите добавить файл robots.txt:

На левой панели перейдите в Управление приложениями → Настройки приложения → Общие .Вы найдете имя папки вашего приложения.

Вернитесь в FileZilla и перейдите в папку / applications / [ИМЯ ПАПКИ] / public_html . Создайте здесь новый текстовый файл и назовите его robots.txt .

Щелкните правой кнопкой мыши файл robots.txt и выберите Просмотр / редактирование , чтобы открыть его в текстовом редакторе (Блокнот — удобный вариант).

Advanced Robots.txt для WordPress

Поисковые системы, такие как Google и Bing, поддерживают использование подстановочных знаков в роботах.txt файл. Эти подстановочные знаки могут использоваться для разрешения / запрета определенных типов файлов на веб-сайте WordPress.

Звездочка (*) может использоваться для обработки широкого диапазона опций / вариантов выбора.

 Пользовательский агент: *
Запретить: /images/image*.jpg 

Здесь «*» означает, что все изображения, начинающиеся с «image» и с расширением «jpg», не будут индексироваться поисковыми системами. Вот несколько примеров файла robots.txt для WordPress.

Пример: image1.jpg, image2.jpg, imagexyz.jpg не будет индексироваться поисковыми системами.

Возможности * не ограничиваются только изображениями. Вы даже можете запретить использование всех файлов с определенным расширением.

 Пользовательский агент: *
Запретить: /downloads/*.pdf
Запретить: /downloads/*.png 

Приведенные выше утверждения потребуют от всех поисковых систем запретить использование всех файлов с расширениями «pdf» и «png» в папке загрузок.

Вы даже можете запретить основные каталоги WordPress, используя *.

 Пользовательский агент: *
Запрещение: / wp - * / 

Вышеупомянутая строка просит поисковые системы не сканировать каталоги, начинающиеся с «wp-».

Пример: wp-includes, wp-content и т. Д. Не будут индексироваться поисковыми системами.

Еще один подстановочный знак, используемый в файле robots.txt WordPress, — это символ доллара ($).

 Пользовательский агент: *
Запрещено: referral.php 

Приведенное выше утверждение попросит поисковые системы не индексировать referral.php, а также referral.php? Id = 123 и так далее.

Но что, если вы хотите заблокировать только файл referral.php? Вам нужно только включить символ $ сразу после реферала.php.

Символ $ гарантирует, что блокируется только файл referral.php, но не referral.php? Id = 123.

 Пользовательский агент: *
Запрещено: referral.php $ 

Вы также можете использовать $ для каталогов.

 Пользовательский агент: *
Запретить: / wp-content / 

Это даст указание поисковым системам запретить папку wp-content, а также все каталоги, расположенные внутри wp-content. Если вы хотите запретить только wp-content, а не все подпапки, вы должны использовать символ $. Например:

 Пользовательский агент: *
Disallow: / wp-content / 
долл. США

Символ $ означает, что запрещен только wp-content.Все каталоги в этой папке по-прежнему доступны.

Ниже представлен файл robots.txt для блога Cloudways.

 Пользовательский агент: *
Запретить: / admin /
Запретить: / admin / *? *
Запретить: / admin / *?
Запретить: / blog / *? *
Запретить: / blog / *? 

В первой строке указан User-agent. Это относится к поисковой системе, которой разрешен доступ к веб-сайту и его индексирование. Полный список всех ботов поисковых систем доступен здесь .

 Пользовательский агент: * 

Где * означает все поисковые системы.Вы можете указать каждую поисковую систему отдельно.

 Запретить: / admin /
Запретить: / admin / *? *
Запретить: / admin / *? 

Это не позволит поисковым системам сканировать каталог «admin». Поисковым системам часто не нужно индексировать эти каталоги.

 Запретить: / blog / *? *
Запретить: / blog / *? 

Если ваш сайт WordPress является сайтом для ведения блогов, рекомендуется ограничить роботов поисковых систем, чтобы они не сканировали ваши поисковые запросы.

Если на вашем сайте есть карта сайта.Добавление его URL-адреса помогает роботам поисковых систем находить файл карты сайта. Это приводит к более быстрой индексации страниц.

Карта сайта
: http://www.yoursite.com/sitemap.xml 

Что включить в Robots.txt для WordPress?

Вы сами решаете, какие части сайта WordPress вы хотите включить в поисковую выдачу. У каждого свои взгляды на настройку файла robots.txt WordPress. Некоторые рекомендуют не добавлять файл robots.txt в WordPress. Хотя, на мой взгляд, следует добавлять и запрещать папку / wp-admin /.Файл robots.txt является общедоступным. Вы можете найти файл robots.txt любого веб-сайта, посетив www.example.com/robots.txt.

Мы закончили с файлом robots.txt в WordPress. Если у вас есть какие-либо вопросы о настройке файла robots.txt, не стесняйтесь спрашивать в разделе комментариев ниже.

Подведение итогов!

Как видите, файл robots.txt — интересный инструмент для вашего SEO. Это позволяет указать роботам поисковых систем, что индексировать, а что нет. Но обращаться с этим нужно осторожно.Неправильная конфигурация может привести к полной деиндексации вашего веб-сайта (пример: если вы используете Disallow: /). Так что будь осторожен!

Теперь ваша очередь. Подскажите, используете ли вы этот тип файла и как вы его настраиваете. Делитесь своими комментариями и отзывами в комментариях.

Часто задаваемые вопросы

1 кв. Что такое robots.txt?

robots.txt — это текстовый файл, размещаемый в корне вашего веб-сайта. Этот файл предназначен для запрета роботам поисковых систем индексировать определенные области вашего веб-сайта.Файл robots.txt — один из первых файлов, проверенных пауками (роботами).

2 кв. Почему используется файл robots.txt?

Файл robots.txt содержит инструкции для роботов поисковых систем, которые анализируют ваш веб-сайт, это протокол исключения для роботов. Благодаря этому файлу вы можете запретить исследование и индексацию вашего сайта некоторым роботам (также называемым «сканерами» или «пауками»).

Начните расти с Cloudways уже сегодня!

Мы никогда не идем на компромисс в отношении производительности, безопасности и поддержки.

Mustaasam Saleem

Мустаасам — менеджер сообщества WordPress в Cloudways — управляемой платформе хостинга WordPress, где он активно работает и любит делиться своими знаниями с сообществом WordPress.Когда он не работает, вы можете увидеть, как он играет в сквош со своими друзьями или защищается в футболе и слушает музыку. Вы можете написать ему по адресу [email protected]

×

Получите нашу рассылку новостей


Будьте первым, кто получит последние обновления и руководства.

Спасибо за подписку на нас!

лучших правил Robots.txt для WordPress

Очистив свои файлы во время недавнего редизайна, я понял, что прошло несколько лет с тех пор, как я в последний раз просматривал файл robots.txt на сайте. Думаю, это хорошо, но со всеми изменениями в структуре и содержании сайта снова пришло время для восхитительной возни с роботами.текст.

Этот пост обобщает мои исследования и дает вам почти идеальный файл роботов, так что вы можете копировать / вставлять полностью «как есть» или использовать шаблон, чтобы дать вам отправную точку для вашей собственной настройки.

Robots.txt за 30 секунд

В первую очередь, директивы роботов запрещают послушным паукам доступ к определенным частям вашего сайта. Они также могут явно «разрешить» доступ к определенным файлам и каталогам. В основном они используются, чтобы сообщить Google, Bing и др., Куда они могут перейти при посещении вашего сайта.Вы также можете делать изящные вещи, например, давать указания конкретным пользовательским агентам и объявлять карты сайта. Для простого текстового файла robots.txt обладает значительной мощностью. И мы хотим использовать любую силу, которую мы можем получить, для нашей наибольшей выгоды.

Лучше robots.txt для WordPress

Запустив WordPress, вы, , хотите, чтобы поисковые системы сканировали и индексировали ваши сообщения и страницы, но не ваши основные файлы и каталоги WP. Вы также хотите убедиться, что фиды и обратные ссылки не включаются в результаты поиска.Также рекомендуется объявить карту сайта. Имея это в виду, вот новых и улучшенных правил robots.txt для WordPress :

.
  Агент пользователя: *
Запретить: / wp-admin /
Запретить: / trackback /
Запретить: /xmlrpc.php
Запретить: / feed /
Разрешить: /wp-admin/admin-ajax.php
Карта сайта: https://example.com/sitemap.xml  

Требуется только одно небольшое изменение: изменить Sitemap , чтобы он соответствовал местоположению вашей карты сайта (или удалите строку, если карта сайта недоступна).

Я использую этот точный код почти на всех моих основных сайтах. Также можно настроить правила, например, если вам нужно исключить какие-либо пользовательские каталоги и / или файлы, на основе фактической структуры вашего сайта и стратегии SEO .

Использование

Чтобы добавить код правил роботов на свой сайт на базе WordPress, просто скопируйте / вставьте код в пустой файл с именем robots.txt . Затем добавьте файл в корневой каталог, доступный через Интернет, например:

  https: // скоропортящийся пресс.com / robots.txt  

Если вы посмотрите на содержимое файла robots.txt для Perishable Press, вы заметите дополнительную директиву robots, которая запрещает сканирование доступа к черной дыре сайта для плохих ботов. Посмотрим:

  Агент пользователя: *
Запретить: / wp-admin /
Запретить: / trackback /
Запретить: /xmlrpc.php
Запретить: / feed /
Запрещение: / blackhole /
Разрешить: /wp-admin/admin-ajax.php
Карта сайта: https://perishablepress.com/wp-sitemap.xml  

Паукам не нужно сканировать что-либо в / wp-admin / , поэтому это запрещено.Точно так же обратные ссылки, xmlrpc и фиды сканировать не нужно, поэтому мы их тоже запрещаем. Также обратите внимание, что мы добавляем явную директиву Allow , которая разрешает доступ к файлу WordPress Ajax, чтобы сканеры и боты имели доступ к любому контенту, созданному Ajax. Наконец, мы обязательно указываем местоположение нашей карты сайта, чтобы сделать его официальным.

Примечания и обновления

Обновление! Следующие директивы были удалены из проверенных и надежных роботов.txt, чтобы удовлетворить новые требования Google, согласно которым роботу googlebot всегда разрешен полный доступ для сканирования любого общедоступного файла.

  Запретить: / wp-content /
Disallow: / wp-includes /  

Поскольку / wp-content / и / wp-includes / включают некоторые общедоступные файлы CSS и JavaScript, рекомендуется всегда разрешать googlebot полный доступ к обоим каталогам. В противном случае вы будете тратить драгоценное время на поиски структурных изменений и изменений имен файлов в WordPress и попытки их синхронизации с каким-то тщательно продуманным набором правил для роботов.Просто разрешить открытый доступ к этим каталогам. Таким образом, две приведенные выше директивы были окончательно удалены из robots.txt и в целом не рекомендуются.

Очевидно, Google настолько хардкорно относится к этому новому требованию 1 , что фактически наказывает сайты (МНОГО) за несоблюдение 2 . Плохие новости для сотен тысяч владельцев сайтов, у которых есть дела поважнее, чем следить за постоянными, часто произвольными изменениями Google.

  • 1 Google требует полного доступа ко всем общедоступным файлам.
  • 2 Обратите внимание, что может быть приемлемо запретить ботам доступ к / wp-content / и / wp-includes / для других (не Google) ботов. Тем не менее, проведите свое исследование, прежде чем делать какие-либо предположения.

Ранее на robots.txt ..

Как уже упоминалось, мой предыдущий файл robots.txt оставался неизменным в течение нескольких лет (который исчез в мгновение ока). Предыдущие правила оказались довольно эффективными, особенно с совместимыми пауками, такими как googlebot .К сожалению, он содержит язык, который понимают (и, следовательно, подчиняются) лишь несколько крупных поисковых систем. Рассмотрим следующие правила роботов, которые использовались здесь, в Perishable Press , еще в те дни.

Важно! Пожалуйста, не используйте следующие правила ни на одном действующем сайте. Они предназначены только для справки и в учебных целях. Для действующих сайтов используйте улучшенные правила robots.txt, приведенные в предыдущем разделе.
  Агент пользователя: *
Disallow: / mint /
Запретить: / labs /
Запрещение: / * / wp- *
Запретить: / * / feed / *
Запретить: / * / *? S = *
Запретить: / * / *.js $
Запретить: /*/*.inc$
Disallow: / transfer /
Запрещение: / * / cgi-bin / *
Запрещение: / * / blackhole / *
Запретить: / * / trackback / *
Запретить: /*/xmlrpc.php
Разрешить: / * / 20 * / wp- *
Разрешить: / press / feed / $
Разрешить: / press / tag / feed / $
Разрешить: / * / wp-content / online / *
Карта сайта: https://perishablepress.com/sitemap.xml

Пользовательский агент: ia_archiver
Disallow: /  

По-видимому, подстановочный знак не распознается меньшими ботами, и я думаю, что символ конечного шаблона (знак доллара $ ), вероятно, также не очень хорошо поддерживается, хотя Google определенно понимает это.

Эти шаблоны, возможно, будут лучше поддерживаться в будущем, но в будущем нет причин для их включения. Как видно из правил «лучших роботов» (выше), такое же сопоставление с образцом возможно без с использованием подстановочных знаков и знаков доллара, что позволяет всем совместимым с ботам понимать ваши предпочтения сканирования.

Подробнее ..

Ознакомьтесь со следующими рекомендуемыми источниками, чтобы узнать больше о robots.txt, SEO и многом другом:

Об авторе

Джефф Старр = Дизайнер.Разработчик. Режиссер. Писатель. Редактор. И Т. Д.

Файл robots.txt WordPress … Что это такое и для чего он нужен

Вы когда-нибудь задумывались, что такое файл robots.txt и для чего он нужен? Robots.txt используется для связи с поисковыми роботами (известными как боты), используемыми Google и другими поисковыми системами. Он сообщает им, какие части вашего сайта индексировать, а какие игнорировать. Таким образом, файл robots.txt может помочь вам улучшить (или потенциально сломать!) Ваши усилия по поисковой оптимизации. Если вы хотите, чтобы ваш сайт занимал высокие позиции, тогда хорошее понимание robots.txt необходим!

Где находится файл robots.txt?

WordPress обычно запускает так называемый «виртуальный» файл robots.txt, что означает, что он недоступен через SFTP. Однако вы можете просмотреть его основное содержимое, перейдя на yourdomain.com/robots.txt. Вероятно, вы увидите что-то вроде этого:

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

В первой строке указывается, к каким ботам будут применяться правила. В нашем примере звездочка означает, что правила будут применяться ко всем ботам (например.грамм. от Google, Bing и т. д.).

Вторая строка определяет правило, которое предотвращает доступ ботов к папке / wp-admin, а третья строка заявляет, что ботам разрешено анализировать файл /wp-admin/admin-ajax.php.

Добавьте свои правила

Для простого веб-сайта WordPress правил по умолчанию, применяемых WordPress к файлу robots.txt, может быть более чем достаточно. Однако, если вам нужен больший контроль и возможность добавлять свои собственные правила, чтобы давать более конкретные инструкции ботам поисковых систем о том, как индексировать ваш веб-сайт, вам нужно будет создать своих собственных физических роботов.txt и поместите его в корневой каталог вашей установки.

Существует несколько причин, по которым может потребоваться переконфигурировать файл robots.txt и определить, что именно этим ботам будет разрешено сканировать. Одна из ключевых причин — время, затрачиваемое ботом на сканирование вашего сайта. Google (и другие) не позволяют ботам проводить неограниченное время на каждом веб-сайте … с триллионами страниц им приходится более тонко подходить к тому, что их боты будут сканировать и что они будут игнорировать, пытаясь извлечь наиболее полезную информацию. о сайте.

Разместите свой сайт с помощью Pressidium

60-ДНЕВНАЯ ГАРАНТИЯ ВОЗВРАТА ДЕНЕГ

СМОТРЕТЬ НАШИ ПЛАНЫ

Когда вы разрешаете ботам сканировать все страницы вашего сайта, часть времени сканирования тратится на страницы, которые не являются важными или даже релевантными. Это оставляет у них меньше времени на проработку наиболее релевантных областей вашего сайта. Запрещая доступ ботам к некоторым частям вашего веб-сайта, вы увеличиваете время, доступное ботам для извлечения информации из наиболее важных частей вашего сайта (которые, мы надеемся, в конечном итоге будут проиндексированы).Поскольку сканирование выполняется быстрее, Google с большей вероятностью повторно посетит ваш веб-сайт и обновит индекс вашего сайта. Это означает, что новые сообщения в блогах и другой свежий контент, вероятно, будут индексироваться быстрее, что не может не радовать.

Примеры редактирования robots.txt

Файл robots.txt предлагает множество возможностей для настройки. Поэтому мы предоставили ряд примеров правил, которые можно использовать, чтобы определять, как роботы индексируют ваш сайт.

Разрешение или запрещение ботов

Во-первых, давайте посмотрим, как можно ограничить конкретного бота.Для этого все, что нам нужно сделать, это заменить звездочку (*) именем пользовательского агента бота, который мы хотим заблокировать, например «MSNBot». Полный список известных пользовательских агентов доступен здесь.

  Пользовательский агент: MSNBot
Disallow: /  

Если поставить дефис во второй строке, доступ бота будет ограничен ко всем каталогам.

Чтобы разрешить сканирование нашего сайта только одному боту, мы используем двухэтапный процесс. Сначала мы установим этого одного бота как исключение, а затем запретим всех таких ботов:

  Пользовательский агент: Google
Запретить:

Пользовательский агент: *
Disallow: /  

Чтобы разрешить доступ всем ботам ко всему контенту, мы добавляем эти две строки:

  Агент пользователя: *
Disallow:  

Такого же эффекта можно добиться, просто создав файл robots.txt, а затем просто оставив его пустым.

Блокировка доступа к определенным файлам

Хотите, чтобы роботы не индексировали определенные файлы на вашем сайте? Это легко! В приведенном ниже примере мы запретили поисковым системам доступ ко всем файлам .pdf на нашем веб-сайте.

  Агент пользователя: *
Disallow: /*.pdf$  

Символ «$» используется для обозначения конца URL-адреса. Поскольку это чувствительно к регистру, файл с именем my.PDF все равно будет сканироваться (обратите внимание на CAPS).

Сложные логические выражения

Некоторые поисковые системы, например Google, понимают использование более сложных регулярных выражений. Однако важно отметить, что не все поисковые системы могут понимать логические выражения в robots.txt.

Одним из примеров этого является использование символа $. В файлах robots.txt этот символ обозначает конец URL-адреса. Итак, в следующем примере мы заблокировали поисковым роботам чтение и индексирование файлов с расширением.php

  Запретить: /*.php$  

Это означает, что /index.php нельзя проиндексировать, но /index.php?p=1 можно. Это полезно только в очень определенных обстоятельствах и должно использоваться с осторожностью, иначе вы рискуете заблокировать доступ бота к файлам, которые вы не хотели!

Вы также можете установить разные правила для каждого бота, указав правила, которые применяются к ним индивидуально. Приведенный ниже пример кода ограничивает доступ к папке wp-admin для всех ботов и в то же время блокирует доступ ко всему сайту для поисковой системы Bing.Это не обязательно, но это полезная демонстрация того, насколько гибкими могут быть правила в файле robots.txt.

  Агент пользователя: *
Запретить: / wp-admin /
Пользовательский агент: Bingbot
Disallow: /  

XML-файлы Sitemap

Карты сайта

XML действительно помогают поисковым роботам понять структуру вашего сайта. Но для того, чтобы быть полезным, бот должен знать, где находится карта сайта. «Директива карты сайта» используется, чтобы специально сообщить поисковым системам, что а) карта сайта существует и б) где они могут ее найти.

  Карта сайта: http://www.example.com/sitemap.xml
Пользовательский агент: *
Disallow:  

Вы также можете указать несколько расположений карты сайта:

  Карта сайта: http://www.example.com/sitemap_1.xml
Карта сайта: http://www.example.com/sitemap_2.xml
Пользовательский агент: *
Запретить  

Задержка сканирования бота

Другая функция, которую можно реализовать с помощью файла robots.txt, — это указать ботам «замедлить» сканирование вашего сайта. Это может быть необходимо, если вы обнаружите, что ваш сервер перегружен из-за большого трафика ботов.Для этого вы должны указать агент пользователя, который нужно замедлить, а затем добавить задержку.

  Пользовательский агент: BingBot
Запретить: / wp-admin /
Задержка сканирования: 10  

Цифры (10) в этом примере — это задержка, которую вы хотите иметь между сканированием отдельных страниц вашего сайта. Итак, в приведенном выше примере мы попросили Bing Bot делать паузу на десять секунд между каждой страницей, которую он сканирует, тем самым давая нашему серверу немного передышки.

Единственные немного плохие новости об этом конкретном роботе.txt гласит, что бот Google его не уважает. Однако вы можете указать их ботам замедляться из консоли поиска Google.

Примечания к правилам robots.txt:

  • Все правила robots.txt чувствительны к регистру. Печатайте внимательно!
  • Убедитесь, что перед командой в начале строки нет пробелов.
  • Изменения, внесенные в robots.txt, могут быть замечены ботами в течение 24–36 часов.

Как протестировать и отправить своих роботов WordPress.txt файл

После создания нового файла robots.txt стоит проверить, нет ли в нем ошибок. Вы можете сделать это с помощью Google Search Console.

Сначала вам нужно будет указать свой домен (если у вас еще нет учетной записи Search Console для настройки вашего веб-сайта). Google предоставит вам запись TXT, которую необходимо добавить в ваш DNS, чтобы подтвердить ваш домен.

Как только это обновление DNS будет распространено (чувствуете нетерпение… попробуйте использовать Cloudflare для управления своим DNS), вы можете посетить robots.txt и проверьте, нет ли предупреждений о содержимом вашего файла robots.txt.

Еще одна вещь, которую вы можете сделать, чтобы проверить, имеют ли ваши правила желаемый эффект, — это использовать инструмент тестирования robots.txt, такой как Ryte.

Вы просто вводите свой домен и выбираете пользовательский агент на панели справа. После отправки вы увидите свои результаты.

Заключение

Знание того, как использовать robots.txt, — еще один полезный инструмент в вашем наборе инструментов разработчика.Если единственное, что вы уберете из этого руководства, — это возможность проверить, не блокирует ли ваш файл robots.txt ботов, таких как Google (что вы вряд ли захотите делать), то в этом нет ничего плохого! Точно так же, как вы можете видеть, robots.txt предлагает целый ряд дополнительных тонких функций управления вашим сайтом, которые однажды могут оказаться полезными.

Разместите свой сайт на WordPress с помощью Pressidium!

Посмотреть наши тарифные планы

Руководство для начинающих по вашему файлу WordPress Robots.txt

Файл robots.txt играет очень важную роль в общем SEO вашего сайта. Этот файл находится на вашем сервере и сообщает поисковым системам, какая часть сайта должна быть проиндексирована и просканирована поисковыми системами. По сути, он содержит набор правил для взаимодействия с поисковыми системами и указания им, какая часть вашего сайта должна быть проиндексирована.

Хотя на большинстве веб-сайтов есть файл robots.txt, не все веб-мастера знают, насколько важен этот файл и как он может повлиять на производительность их веб-сайтов.


В сегодняшнем руководстве мы расскажем вам, что именно представляет собой файл robots.txt, и все остальное, что вам нужно знать об этом файле.

Что такое файл WordPress Robots.txt?

Каждый веб-сайт в Интернете посещает определенный тип робота, который является своего рода ботом.

Если вы не знаете, что такое бот, поисковые системы, такие как Google и Bing, являются прекрасным примером для вас, чтобы понять это.

Таким образом, когда эти боты ползают по Интернету, они помогают поисковым системам индексировать и ранжировать миллиарды веб-сайтов, существующих в Интернете.

Итак, эти боты действительно помогают поисковым системам обнаруживать ваш сайт. Однако это не означает, что вы хотите, чтобы все ваши страницы были найдены.

Вы особенно хотели бы, чтобы ваша панель управления и область администрирования оставались скрытыми, потому что это личная область, из которой вы управляете интерфейсом своего веб-сайта. Иногда вы можете захотеть, чтобы весь сайт оставался скрытым от поисковых систем по той самой причине, что он все еще находится в режиме разработки и просто не готов к запуску.

Команды Robots.txt, изображение из веб-роботов. Страница

Здесь появляется файл robots.txt. Этот файл помогает вам контролировать взаимодействие ботов с вашим сайтом. Таким образом, используя этот файл, вы можете либо ограничить, либо полностью заблокировать его доступ к определенной области вашего сайта.

Нужен ли вашему сайту этот файл?

Хотя поисковые системы не прекращают сканирование, при отсутствии этого файла всегда рекомендуется иметь его.

Поисковые системы будут обращаться к этому файлу, если вы хотите отправить свои XML-карты сайта в такие поисковые системы, как Google.Очевидно, вы можете контролировать это, особенно указав его в Google Web Master Tools.

Создание файла robot.txt имеет два основных преимущества для вашего веб-сайта. Во-первых, это помогает поисковым системам определить, какие страницы вы хотите сканировать, а какие игнорировать. Делая это, вы убедитесь, что поисковые системы сосредоточены на страницах, которые вы хотите показать своей аудитории.

Во-вторых, это помогает вам оптимизировать использование исследований, блокируя ботов, которые напрасно тратят ресурсы вашего сервера.

Если ваш сайт работает на WordPress, вам обычно не нужно прилагать дополнительных усилий для создания файла robots.txt для вашего сайта. На вашем сайте WordPress автоматически создается виртуальный файл robots.txt. Но все же лучше иметь физический файл robots.txt.

Является ли файл Robots.txt надежным способом контролировать, какая страница должна быть проиндексирована?

Ну, как я уже упоминал, поисковые системы не перестанут сканировать ваши страницы в отсутствие этого файла. Создание этого файла не является надежным способом управления страницей, которую вы хотите проиндексировать поисковыми системами.

Если вы хотите, чтобы поисковые системы, в частности, не сканировали определенную страницу, вы можете использовать метатег noindex, чтобы полностью заблокировать их.

Используя файл robots.txt, вы не говорите поисковым системам не индексировать их. Он только предлагает им не сканировать эти страницы. Хотя Google не сканирует эти области вашего сайта, он все равно может это делать, если какой-либо другой сайт ссылается на эту часть вашего сайта.

Где находится файл Robots.txt на вашем сайте WordPress?

Вы можете просмотреть этот файл, подключившись к своему сайту с помощью FTP-клиента.Вы также можете сделать это с помощью файлового менеджера cPanel. Этот файл обычно находится в корневой папке вашего сайта.

Вы можете открыть этот файл с помощью любого текстового редактора, например Блокнота. Это обычный файл, и для его открытия не требуется специального редактора.

Вам не нужно беспокоиться о наличии этого файла на вашем сайте. WordPress по умолчанию автоматически создает файл robot.txt для вашего сайта.

Если вы все еще сомневаетесь в этом, есть способ показать вам, что этот файл существует на вашем сайте.Просто добавьте «/robots.txt» в конец своего доменного имени. Он покажет вам файл robots.txt вашего веб-сайта.

В нашем случае «www.alienwp.com/robots.txt» показывает файл robots.txt, который мы здесь используем.

Вы не можете изменить существующий файл, который будет у вас на сайте. Но если вы хотите манипулировать им, вам придется создать физический на своем сервере. Существующий — виртуальный, не допускающий никаких изменений.

Как создать роботов.txt файл?

Если на вашем сайте нет файла robots.txt, создать его несложно. Вы можете легко сделать это из панели администратора через плагин Yoast. Yoast — один из самых замечательных плагинов для SEO, который должен использовать каждый сайт WordPress. Если вы все еще не используете этот плагин, установите его сейчас, чтобы улучшить свое SEO.

После установки Yoast сначала необходимо включить расширенные функции Yoast. Вы можете сделать это, перейдя в SEO> Панель инструментов> Функции> Расширенные настройки.

Теперь перейдите в раздел SEO> Инструменты >> Редактор файлов.

Здесь Yoast предполагает, что у вас нет физического файла Robots.txt, и, учитывая это, даст вам возможность создать его.

Нажмите на опцию создания файла Robots.txt. После этого вы сможете редактировать содержимое этого файла из того же интерфейса.

Как создать файл robots.txt без плагина SEO?

Вышеупомянутый процесс был способом создания этого файла с помощью плагина SEO.Но вы можете создать его, даже если вы не используете такой плагин. Это можно сделать через SFTP. Сделать это очень просто.

Для этого вам сначала нужно создать пустой файл. Назовите его Robots.txt и сохраните.

На следующем шаге вам нужно будет подключиться к вашему сайту через SFTP. У Kinsta есть руководство по подключению к SFTP. После подключения вам нужно будет загрузить файл в корневую папку вашего веб-сайта. Если вы хотите внести какие-либо изменения в этот файл, вы можете сделать это, отредактировав его через SFTP и загрузив новую версию.

Как использовать файл Robots.txt для блокировки доступа к определенной странице?

Вы можете заблокировать определенный файл или папку на своем веб-сайте с помощью файла robots.txt. Предположим, вы хотите запретить Google сканировать всю папку wp-admin и wp-login.php. Следующая команда поможет вам сделать это на вашем сайте.

 Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: /wp-login.php

 

Что поместить в файл Robot.txt?

Когда вы создаете файл robots.txt для своего веб-сайта, вы обычно делаете это с помощью двух основных команд.

  • User-agent — Используя пользовательский агент, вы можете настроить таргетинг на конкретного бота или поисковую систему более простыми словами. Таким образом, ваш пользовательский агент отличается для разных поисковых систем. Таким образом, пользовательский агент для Google не будет таким же для Bing.
  • Disallow — с помощью этой команды вы запрещаете поисковым системам получать доступ к определенным областям вашего веб-сайта. Таким образом, поисковые системы не достигают областей, для которых используется эта команда.

Иногда вы также можете увидеть, что используется команда «Разрешить».Обычно это используется в нишевых ситуациях. Даже если вы не используете эту команду, большая часть вашего сайта попадает под эту команду. Это установлено по умолчанию на вашем сайте WordPress.

Приведенные выше правила являются лишь основными. Есть еще правила, о которых вам нужно знать. Вот несколько из них.

  • Разрешить — Эта команда явно разрешает поисковым системам сканировать объект на вашем сервере
  • Sitemap — Эта команда сообщает сканерам, где находятся карты вашего сайта
  • Host — Хост определяет ваш предпочтительный домен для сайта с несколькими зеркалами
  • Crawl-delay — С помощью этой команды вы можете установить временной интервал, через который поисковые системы должны ждать между запросами к вашему серверу

Как создать разные правила для разных ботов?

Роботы.txt-файл имеет собственный синтаксис для определения правил, которые обычно называются директивами. Как мы уже упоминали ранее, у разных ботов разные команды пользовательского агента. Так что, если вы хотите настроить файл Robots.txt для разных ботов?

Что ж, в этом случае вам нужно будет добавить набор правил в декларацию агента пользователя для каждого бота.

В следующей команде мы покажем вам, как создать одно правило для всех ботов, а другое — специально для Bing.

 Пользовательский агент: *
Запретить: / wp-admin /
Пользовательский агент: Bingbot
Disallow: / 

Добавив указанную выше команду, вы сможете заблокировать доступ всех ботов к области wp-admin на вашем веб-сайте.Однако поисковой системе Bing будет заблокирован доступ ко всему веб-сайту.

Чего следует избегать при создании файла Robots.txt

есть определенные вещи, которых следует избегать при создании файла Robots.txt. Первая и самая важная ошибка, которую совершают многие неопытные веб-владельцы, — это предоставление места в начале команды.

Второе, что вам нужно иметь в виду, это то, что вы не можете и не должны изменять правила команд.Третье, на что многие люди игнорируют, обращая внимание, — это правильное использование верхнего и нижнего регистра при написании команды.

Убедитесь, что вы дважды проверили регистр ваших команд. Вы не можете написать user-Agent или user-agent там, где на самом деле должен быть User-agent. Надеюсь, вы поняли разницу в трех терминах.

Добавление ваших XML-карт сайта в файл Robots.txt

Если на вашем сайте уже используется плагин SEO, такой как Yoast, он автоматически добавит команды, связанные с XML-картами вашего сайта, в robots.txt файл.

Но если ваш плагин не может добавить эти команды, вам придется сделать это вручную самостоятельно. Ваш плагин покажет вам ссылку на ваши XML-файлы Sitemap. Вам придется добавить его в файл robots.txt самостоятельно.

Как узнать, что ваш файл Robots.txt не влияет на ваш контент?

Иногда вам может понадобиться проверить, не влияет ли на ваш контент файл robots.txt. Чтобы проверить и убедиться, что контент не затронут, вы можете использовать инструмент для веб-мастеров под названием «Fetch As Bot Tool».Этот инструмент позволит вам узнать, получает ли ваш файл robots.txt доступ к вашему контенту.

Для этого вам сначала нужно войти в инструмент Google для веб-мастеров. Теперь перейдите в раздел «Диагностика» и «Получить как Google Bot». Здесь вы можете разместить контент своего сайта и посмотреть, нет ли у вас проблем с доступом к нему.

Заключительные слова

Как уже упоминалось, на большинстве сайтов WordPress по умолчанию используется robots.txt. Но с помощью файла robots.txt вы можете контролировать, как конкретный бот или поисковая система взаимодействует с определенной частью вашего веб-сайта.

Важно знать, что команда disallow — это не то же самое, что тег noindex. Поисковые системы могут быть заблокированы с помощью файла robots.txt, но это не может помешать им индексировать ваш сайт. Вы можете управлять тем, как поисковые системы взаимодействуют с вашим сайтом, добавляя определенные правила.

Но хорошо, что вы знаете, какую часть вашего сайта следует сканировать, а к какой части следует запретить доступ. Потому что Google обычно смотрит на ваш сайт в целом. Поэтому, если вы используете эти файлы для блокировки важной части, о которой Google должен знать, вы можете столкнуться с некоторыми серьезными проблемами.

Например, если вы по незнанию используете файл robots.txt, чтобы заблокировать компонент стилизации. В таком случае Google сочтет ваш сайт более низким и может даже оштрафовать вас.

В основном содержание, которое вы хотите поместить в файл robots.txt, зависит от вашего веб-сайта. Это могут быть ваши партнерские ссылки, ваша панель управления или любая другая конкретная область, к которой, по вашему мнению, не должны иметь доступ боты. Вы также можете сделать это для своих плагинов и тем.

Мы надеемся, что это руководство было для вас полезным.Не стесняйтесь оставлять нам комментарии ниже, если у вас возникнут дополнительные вопросы. Мы будем рады вернуться к вам.

Просмотры сообщений: 9,545

Похожие сообщения

Информация об авторе

Кавери — внештатный писатель, работающий полный рабочий день, который любит писать о WordPress и цифровом маркетинге.

Как редактировать и оптимизировать robots.txt в WordPress

В этом посте я расскажу об оптимизации robots.txt с помощью WordPress. Я расскажу вам, что такое robots.txt, почему он важен, как его оптимизировать, и мы закроем его, ответив на общие вопросы о robots.txt. Давайте нырнем!

Что такое файл robots.txt и почему он важен

Если вы читаете эту статью, есть большая вероятность, что вы уже знаете, что такое файл robots.txt и почему он важен. Однако, если вам нужно освежиться, файл robots.txt даст вам власть, когда дело доходит до роботов, таких как веб-сканеры и поисковые роботы.

Файл robots.txt сообщает роботам, как сканировать ваш веб-сайт.С его помощью вы можете определить, к каким областям вашего сайта поисковые роботы могут получить доступ, а к каким — нет. Вы даже можете указать директивы для определенных ботов в файле robots.txt.

Давайте посмотрим на простой пример файла robots.txt

Если вы перейдете на https://expanderdigital.com/robots.txt, вы увидите файл robots.txt для этого веб-сайта (на дату публикации этого статья). Это простой файл:

 1 # Привет!
2 # Ознакомьтесь с нашими услугами по поисковой оптимизации по адресу https: // expanderdigital.ru / services /
3 Пользовательский агент: *
4 Разрешить: /
5 Карта сайта: https://expanderdigital.com/sitemap_index.xml 

Итак, что происходит с этим файлом robots.txt? Я решил немного развлечься со своим файлом. Большинство людей обычно не посещают файл robots.txt веб-сайта, но тем, кто посещает, я хотел бы, чтобы они ознакомились с моими услугами по поисковой оптимизации. Вот что происходит с первыми двумя строками файла: приветствие и презентация. В третьей строке говорится, что директивы в файле robots.txt предназначены для всех пользовательских агентов, на что указывает подстановочный знак.В четвертой строке говорится, что все в корневом каталоге можно сканировать и получить к нему доступ. Последняя строка определяет URL-адрес, по которому роботы могут найти XML-карту сайта веб-сайта.

Давайте посмотрим на более сложный пример файла robots.txt

В этом примере я решил выбрать более популярный и хорошо посещаемый веб-сайт. Более известные веб-сайты, как правило, имеют более надежные файлы robots.txt из-за необходимости ограничивать трафик от определенных роботов.

Я собираюсь использовать в качестве примера компанию T-Mobile.Если вы перейдете на https://t-mobile.com/robots.txt, вы увидите файл robots.txt для этого веб-сайта. Этот файл robots.txt немного сложнее:

 User-agent: Twitterbot
Запретить:

Пользовательский агент: Atomz / 1.0
Карта сайта: https://www.t-mobile.com/sitemap.xml
Карта сайта: https://www.t-mobile.com/company-sitemap.xml
Карта сайта: https://www.t-mobile.com/store-locator-sitemap.xml
Карта сайта: https://www.t-mobile.com/filter-sitemap.xml
Карта сайта: https://www.t-mobile.com/product-sitemap.xml
Карта сайта: https: //www.t-mobile.ru / business / sitemap.xml
Запретить: / _authoring /
Запретить: /personalized-campaign.html
Запретить: /retargeted-campaign.html
Запретить: /anonymous-campaign.html
Запретить: /PartnerServices.aspx*
Запрещено: / магазин / тележка /
Запретить: / popup /
Запретить: /Templates/Popup.aspx?*
Запрещено: / магазин / планы / розничная торговля /
Запретить: / system / sling / cqform /
Disallow: / home
Запретить: / styleguide
Disallow: /offers/aN1217Lbp.html
Запрещено: /offers/kN1024Cat.html
Запретить: /offer/alcatel-linkzone-modal.html
Запретить: / customer / TX-210-726-код-города-наложение-уведомление.html
Запретить: / бизнес / репозиторий-модель / *
Запретить: / content / t-mobile / consumer / _authoring / modules / hp / *
Запретить: / content / t-mobile / consumer / _authoring / pages / plays / *
Запретить: / предвидеть / *
Запретить: / content / t-mobile
Disallow: / shop / addons / Services /
Запретить: / templates / *
Запретить: / orderstatus / *
Disallow: / shop / AddOns / Accessories / *

Пользовательский агент: Baiduspider
Запретить: /

Пользователь-агент: ЯндексБот
Запретить: /

Пользовательский агент: *
Карта сайта: https://www.t-mobile.com/sitemap.xml
Карта сайта: https://www.t-mobile.com/company-sitemap.xml
Карта сайта: https://www.t-mobile.com/store-locator-sitemap.xml
Карта сайта: https://www.t-mobile.com/filter-sitemap.xml
Карта сайта: https://www.t-mobile.com/product-sitemap.xml
Карта сайта: https://www.t-mobile.com/business/sitemap.xml
Запретить: / _authoring /
Запретить: /? Cmpid = *
Запретить: /? Icid = *
Запретить: /personalized-campaign.html
Запретить: /retargeted-campaign.html
Запретить: /anonymous-campaign.html
Запретить: /PartnerServices.aspx*
Запрещено: / магазин / тележка /
Запретить: / popup /
Запретить: / Шаблоны / Всплывающее окно.aspx? *
Запрещено: / магазин / планы / розничная торговля /
Запретить: / system / sling / cqform /
Disallow: / home
Запретить: / styleguide
Disallow: /offers/aN1217Lbp.html
Запрещено: /offers/kN1024Cat.html
Запретить: /offer/alcatel-linkzone-modal.html
Запретить: /customer/TX-210-726-area-code-overlay-notification.html
Запретить: / бизнес / репозиторий-модель / *
Запретить: / content / t-mobile / consumer / _authoring / modules / hp / *
Запретить: / content / t-mobile / consumer / _authoring / pages / plays / *
Запретить: / предвидеть / *
Запретить: / content / t-mobile
Disallow: / shop / addons / Services /
Запретить: / templates / *
Запретить: / orderstatus / *
Disallow: / shop / AddOns / Accessories / * 

Я остановлюсь на нескольких основных моментах, которые, на мой взгляд, заслуживают внимания с помощью этих роботов.текст. Если бы я пошел строка за строкой и охватил все, мы могли бы быть здесь весь день! Давайте начнем с простого: заблокированных поисковых роботов.

Поскольку T-Mobile US ведет бизнес в Соединенных Штатах, логично, что они не хотели бы, чтобы поисковые роботы из других стран сканировали и индексировали веб-сайт. Вот почему в строках 37 и 38 китайской поисковой системе Baidu заблокировано сканирование веб-сайта. По этой же причине в строках 40 и 41 блокируется российский поисковик Яндекс:

 User-agent: Baiduspider.
Запретить: /

Пользователь-агент: ЯндексБот
Disallow: / 

Возвращаясь к началу, мы видим следующее в первой и второй строках:

 User-agent: Twitterbot
Disallow: 

Вышеупомянутое означает, что Twitterbot может сканировать все в домене.Стоит отметить, что следующая директива разрешает сканирование всего на вашем веб-сайте:

 Disallow: 

Интересно, что эта же директива делает то же самое:

 Allow: / 

Любая директива в сочетании со спецификацией пользовательского агента , позволит агенту пользователя сканировать веб-сайт. Давайте перейдем к последнему разделу, который я хочу пройти.

Последний раздел, на который я хочу обратить внимание, касается Atomz:

 User-agent: Atomz / 1.0
Карта сайта: https: // www.t-mobile.com/sitemap.xml
Карта сайта: https://www.t-mobile.com/company-sitemap.xml
Карта сайта: https://www.t-mobile.com/store-locator-sitemap.xml
Карта сайта: https://www.t-mobile.com/filter-sitemap.xml
Карта сайта: https://www.t-mobile.com/product-sitemap.xml
Карта сайта: https://www.t-mobile.com/business/sitemap.xml
Запретить: / _authoring /
Запретить: /personalized-campaign.html
Запретить: /retargeted-campaign.html
Запретить: /anonymous-campaign.html
Запретить: /PartnerServices.aspx*
Запрещено: / магазин / тележка /
Запретить: / popup /
Запретить: / Шаблоны / Всплывающее окно.aspx? *
Запрещено: / магазин / планы / розничная торговля /
Запретить: / system / sling / cqform /
Disallow: / home
Запретить: / styleguide
Disallow: /offers/aN1217Lbp.html
Запрещено: /offers/kN1024Cat.html
Запретить: /offer/alcatel-linkzone-modal.html
Запретить: /customer/TX-210-726-area-code-overlay-notification.html
Запретить: / бизнес / репозиторий-модель / *
Запретить: / content / t-mobile / consumer / _authoring / modules / hp / *
Запретить: / content / t-mobile / consumer / _authoring / pages / plays / *
Запретить: / предвидеть / *
Запретить: / content / t-mobile
Disallow: / shop / addons / Services /
Запретить: / templates / *
Запретить: / orderstatus / *
Disallow: / shop / AddOns / Accessories / * 

T-Mobile заблокировал роботу Atomz сканирование определенных каталогов и вызвал URL-адреса для нескольких XML-карт сайта.Обратите внимание на то, что каждая строка имеет разные карты сайта, и каждая строка также содержит директиву, по которой каталог не должен сканироваться. Вам также может быть интересно узнать, как некоторые директивы содержат подстановочный знак (*). Мы не собираемся углубляться в использование подстановочных знаков в сегодняшнем сообщении, но спецификация Google Robots.txt отлично справляется с этой темой.

Углубление

Если вы хотите получить более широкое представление о robots.txt, вы можете прочитать о протоколе исключения роботов (REP), чтобы лучше ознакомиться с руководящими стандартами сканирования Интернета.

Как создать файл robot.txt с помощью Yoast

К настоящему времени вы должны иметь хорошее представление о том, как работает robots.txt, и, вероятно, готовы засучить рукава и начать работать с файлом robots.txt . Мы расскажем, как это сделать с помощью Yoast. Сначала создадим файл robots.txt.

Итак:

  1. Войдите в WordPress.
  2. В левом меню выберите SEO> Инструменты .
  3. В разделе Инструменты выберите Редактор файлов .
    Примечание. Если у вас нет этой опции, возможно, у вас не включено редактирование файла. Вам необходимо включить эту опцию, чтобы использовать Yoast для создания файла robots.txt и управления им.
  4. Нажмите кнопку Создать файл robots.txt .

Как редактировать и оптимизировать robots.txt с помощью Yoast

Имея файл robots.txt на месте, вы можете оптимизировать файл в соответствии со своими потребностями:

  1. Войдите в WordPress.
  2. В левом меню выберите SEO> Инструменты .
  3. В разделе Инструменты выберите Редактор файлов .
  4. Отредактируйте поле, чтобы оптимизировать файл robots.txt.
  5. Нажмите кнопку Сохранить изменения в robots.txt .
  6. Проверьте свой robots.txt с помощью тестера robots.txt консоли поиска Google. Примечание. Этот шаг не является обязательным, но настоятельно рекомендуется. Если вы еще не настроили Google Search Console, ознакомьтесь с разделом «Как добавить свой сайт WordPress в Google Search Console».

Общие вопросы о роботах.txt

Завершая этот пост, я подумал, что он может помочь осветить некоторые часто задаваемые вопросы (FAQ) о robots.txt. Если вы думаете, что я должен ответить на какой-то вопрос, но не включил его сюда, перейдите на нашу страницу контактов и дайте мне знать.

Нужен ли мне файл robots.txt?

Короткий ответ — нет. Однако веб-сайты без файла robots.txt подвергаются риску того, что все веб-страницы на веб-сайте будут просканированы и проиндексированы поисковыми системами. Это не идеально, потому что на большинстве веб-сайтов есть по крайней мере несколько страниц, а в некоторых случаях много страниц, которые не должны сканироваться или индексироваться поисковыми системами.Итак, вам нужен файл robots.txt? Нет, но я думаю, что он должен быть на каждом сайте.

Как мне проверить свой файл robots.txt?

Проверить файл robots.txt можно несколькими способами. Самый простой способ — перейти по URL-адресу файла. Поскольку этот файл находится в корневом каталоге, просто перейдите по адресу домена с /robots.txt в конце. Например, https://expanderdigital.com/robots.txt — это то, как я могу проверить файл на этом веб-сайте. Другой способ проверить файл — использовать роботов Google Search Console.txt тестер.

Что произойдет, если я удалю свой файл robots.txt?

Веб-сайты без файла robots.txt подвержены риску того, что все страницы на веб-сайте будут просканированы и проиндексированы поисковыми системами.

Могу ли я удалить файл robots.txt через WordPress?

Вы не сможете удалить файл robots.txt напрямую через WordPress. Однако вы можете удалить файл robots.txt на веб-сайте на базе WordPress с помощью файлового менеджера cPanel.

Могу ли я редактировать свой файл robots.txt вне WordPress?

Да, можно.Для большинства веб-сайтов WordPress вам нужно будет войти в cPanel, получить доступ к файловому менеджеру, открыть файл robots.txt, чтобы отредактировать файл. Не забывайте сохранять внесенные вами изменения!

Заключение

Если вы новичок в работе с файлом robots.txt или вам нужны рекомендации, мы готовы помочь. Посетите нашу страницу контактов и свяжитесь с нами. Если вы нашли эту статью полезной, регулярно проверяйте наш блог, чтобы получить больше советов.

Понимание и оптимизация роботов WordPress.txt

Когда дело доходит до SEO, большинство людей хорошо разбираются в основах. Они знают о ключевых словах и о том, как они должны отображаться в разных местах своего контента. Они слышали о SEO на странице и, возможно, даже опробовали плагины WordPress для SEO.

Однако, если вы погрузитесь в самую суть поисковой оптимизации, есть несколько довольно неясных частей головоломки, о которых не все знают, — один из них — файлы robots.txt.

Что такое роботы.txt и для чего они нужны?

Файл robots.txt — это текстовый файл, который находится на вашем сервере. Он содержит правила индексации вашего веб-сайта и является инструментом для прямого взаимодействия с поисковыми системами.

По сути, в файле указано, какие части вашего сайта разрешено индексировать Google, а какие — оставить в покое.

Однако почему бы вам сказать Google , а не , чтобы сканировать что-то на вашем сайте? Разве это не вредно с точки зрения SEO? На самом деле существует множество причин, по которым вы сказали бы Google не сканировать что-либо на вашем сайте.

Одним из наиболее частых случаев использования robots.txt является исключение веб-сайта из результатов поиска, который все еще находится на стадии разработки.

То же самое касается промежуточной версии вашего сайта, где вы пробуете изменения перед их фиксацией в действующей версии.

Или, может быть, на вашем сервере есть файлы, которые вы не хотите показывать в Интернете, потому что они предназначены только для ваших пользователей.

Обязательно ли иметь файл robots.txt?

У вас совсем , у есть роботы.txt на месте? Нет, ваш сайт WordPress будет проиндексирован поисковыми системами даже без этого файла.

Фактически, WordPress сам по себе уже содержит виртуальный файл robots.txt. Тем не менее, я все же рекомендую создать физическую копию на вашем сервере. Так будет намного проще.

Однако вы должны знать, что соблюдение robots.txt не может быть принудительным. Файл будет распознаваться и уважаться основными поисковыми системами, но вредоносные сканеры и низкокачественные поисковые роботы могут полностью игнорировать его.

Как создать его и куда его положить?

Создать собственный файл robots.txt так же просто, как создать текстовый файл в любом редакторе и назвать его robots.txt. Просто сохраните, и все готово. Серьезно, это так просто.

Хорошо, есть второй шаг: загрузка через FTP. Файл обычно помещается в вашу корневую папку, даже если вы переместили WordPress в его собственный каталог. Хорошее практическое правило — поместить его в то же место, что и ваш index.php, дождаться завершения загрузки и готово.

Имейте в виду, что вам понадобится отдельный файл robots.txt для каждого поддомена вашего сайта и для разных протоколов, таких как HTTPS.

Как установить правила внутри robots.txt

А теперь поговорим о содержании.

Файл robots.txt имеет собственный синтаксис для определения правил. Эти правила также называются «директивами». Далее мы рассмотрим, как вы можете использовать их, чтобы сообщить сканерам, что они могут и не могут делать на вашем сайте.

Базовые роботы.txt синтаксис

Если вы закатили глаза при слове «синтаксис», не волнуйтесь, вам не нужно изучать новый язык программирования. Доступных команд для директив немного. Фактически, для большинства целей достаточно знать только два из них:

  • User-Agent — определяет поискового робота
  • Disallow — Указывает поисковому роботу держаться подальше от определенных файлов, страниц или каталогов

Если вы не собираетесь устанавливать разные правила для разных сканеров или поисковых систем, можно использовать звездочку (*), чтобы определить универсальные директивы для всех из них.Например, чтобы заблокировать всех на своем веб-сайте, вы должны настроить robots.txt следующим образом:

 Агент пользователя: *
Disallow: / 

Это в основном говорит о том, что все каталоги закрыты для всех поисковых систем.

Важно отметить, что в файле используются относительные (а не абсолютные) пути. Поскольку файл robots.txt находится в вашем корневом каталоге, косая черта означает запрет для этого местоположения и всего, что в нем содержится. Чтобы определить отдельные каталоги, такие как ваша медиа-папка, как запрещенные, вам нужно будет написать что-то вроде / wp-content / uploads / .Также имейте в виду, что пути чувствительны к регистру.

Если это имеет для вас смысл, вы также можете разрешить или запретить использование некоторых частей вашего сайта для определенных ботов. Например, следующий код внутри вашего robots.txt предоставит только Google полный доступ к вашему веб-сайту, не допуская при этом всех остальных:

 Пользовательский агент: Googlebot
Запретить:
Пользовательский агент: *
Disallow: / 

Имейте в виду, что правила для определенных поисковых роботов должны быть определены в начале файла robots.txt.После этого вы можете включить подстановочный знак User-agent: * в качестве всеобъемлющей директивы для всех пауков, для которых нет явных правил.

Примечательные имена пользовательских агентов включают:

  • Googlebot — Google
  • Googlebot-Image — Google Image
  • Googlebot-News — Google News
  • Bingbot — Bing
  • Yahoo! Slurp — Yahoo (отличный выбор по названию, Yahoo!)

Более подробную информацию можно найти здесь:

Опять же, позвольте мне напомнить вам, что Google, Yahoo, Bing и т. Д. Обычно будут соблюдать директивы в вашем файле, однако не каждый сканер будет это делать.

Дополнительный синтаксис

Disallow и User-agent — не единственные доступные правила. Вот еще несколько:

  • Разрешить — явно разрешает сканирование объекта на вашем сервере
  • Карта сайта — Сообщите сканерам, где находится ваша карта сайта
  • Хост — определяет предпочтительный домен для сайта с несколькими зеркалами
  • Crawl-delay — Устанавливает интервал времени, в течение которого поисковые системы должны ждать между запросами к вашему серверу

Давайте сначала поговорим о разрешить .Распространенное заблуждение состоит в том, что это правило используется для указания поисковым системам проверять ваш сайт и поэтому важно с точки зрения SEO. По этой причине в некоторых файлах robots.txt вы найдете следующее:

 Агент пользователя: *
Разрешить: / 

Эта директива является избыточной. Почему? Потому что поисковые системы рассматривают все, что конкретно не запрещено на вашем сайте, как честную игру. Если вы скажете им, что разрешаете сканирование всего вашего сайта, это мало что изменит.

Вместо этого используется директива allow для противодействия disallow .Это полезно, если вы хотите заблокировать весь каталог, но предоставить поисковым системам доступ к одному или нескольким файлам внутри него, например:

 Агент пользователя: *
Разрешить: /my-directory/my-file.php
Запретить: / my-directory / 

В целом поисковые системы будут держаться подальше от my-directory , но по-прежнему будут обращаться к my-file.php . Однако важно отметить, что сначала вам нужно разместить директиву allow , чтобы это работало.

Некоторые сканеры поддерживают директиву Sitemap .Вы можете использовать его, чтобы сообщить им, где найти карту сайта вашего веб-сайта, и это будет выглядеть так:

 Карта сайта: http://mysite.com/sitemap_index.xml
Карта сайта: http://mysite.com/post-sitemap.xml
Карта сайта: http://mysite.com/page-sitemap.xml
Карта сайта: http://mysite.com/category-sitemap.xml
Карта сайта: http://mysite.com/post_tag-sitemap.xml 

Директива может находиться в любом месте файла robots.txt. Как правило, владельцы веб-сайтов размещают его либо в начале, либо в конце.Однако его полезность спорна. Например, у Йоаста есть следующие мысли по этому поводу:

«Мне всегда казалось, что ссылка на вашу карту сайта XML из файла robots.txt — это чепуха. Вам следует вручную добавлять их в свои инструменты для веб-мастеров Google и Bing и следить за их отзывами о вашей XML-карте сайта ». — Йуст де Валк,

.

Таким образом, вам решать, добавлять его в свой файл или нет.

Host и Crawl-delay — две директивы, которые я лично никогда не использовал.Первый сообщает поисковым системам, какой домен ваш любимый, если у вас есть несколько зеркал вашего сайта. Последний устанавливает количество секунд, в течение которых поисковые роботы должны ждать между сканированиями.

Поскольку и то, и другое не так уж часто встречается, я не буду вдаваться в подробности, но я хотел включить их для завершения.

Продвинутый уровень

Все еще со мной? Отличная работа. Теперь становится немного сложнее.

Мы уже знаем, что можем установить подстановочные знаки с помощью звездочки для User-agent .Однако то же самое верно и для других директив.

Например, если вы хотите заблокировать доступ ко всем папкам, которые начинаются с wp-, вы можете сделать это так:

 Агент пользователя: *
Запрещение: / wp - * / 

Имеет смысл, не правда ли? То же самое и с файлами. Например, если бы моей целью было исключить все файлы PDF в моей папке мультимедиа из отображения в поисковой выдаче, я бы использовал этот код:

 Агент пользователя: *
Запрещено: /wp-content/uploads/*/*/*.pdf 

Обратите внимание, что я заменил каталоги месяца и дня, которые WordPress автоматически устанавливает, с помощью подстановочных знаков, чтобы убедиться, что все файлы с этим окончанием перехватываются независимо от того, когда они были загружены.

Хотя этот метод в большинстве случаев работает хорошо, иногда необходимо определять строку через ее конец, а не начало. Здесь пригодится подстановочный знак доллара:

 Агент пользователя: *
Запретить: /page.php$ 

Вышеупомянутое правило гарантирует, что блокируется только page.php , а не page.php? Id = 12 . Знак доллара сообщает поисковым системам, что page.php — это самый конец строки. Аккуратно, а?

Хорошо, но что я должен вложить в своих роботов.txt сейчас ?!

Я вижу, ты теряешь терпение. Где код? Разве я не могу опубликовать здесь какие-то оптимизированные директивы, которые можно просто скопировать и вставить, и на этом все закончится?

Как бы мне этого ни хотелось, но, к сожалению, нет.

Почему? Что ж, одна из причин заключается в том, что содержание вашего robots.txt действительно зависит от вашего сайта. У вас может быть пара вещей, которые вы бы предпочли держать подальше от поисковых систем, которые не волнуют других.

Во-вторых, что более важно, не существует согласованного стандарта передовых практик и оптимальных способов настройки вашего robots.txt с точки зрения SEO. Вся эта тема вызывает споры.

Чем занимаются специалисты

Например, ребята из Yoast имеют в своем robots.txt только следующее:

 User-Agent: *
Disallow: / out / 

Как видите, единственное, что они запрещают, — это их «исходящий» каталог, в котором размещаются их партнерские ссылки.Все остальное — честная игра. Причина такая:

«Google больше не глупый ребенок, который просто извлекает HTML-код с вашего сайта и игнорирует ваш стиль и JavaScript. Он извлекает все и полностью отображает ваши страницы. Это означает, что когда вы запрещаете Google доступ к вашим файлам CSS или JavaScript, ему это совсем не нравится «. — Йоаст

К настоящему времени Google просматривает ваш сайт в целом. Если вы заблокируете компоненты стиля, он будет думать, что ваш сайт выглядит как дерьмо, и наказывать вас за это разрушительными эффектами.

Чтобы проверить, как Google видит ваш сайт, используйте «Просмотреть как Google», а затем «Получить и обработать» в разделе «Сканирование» Инструментов Google для веб-мастеров. Если ваш файл robots.txt слишком строгий, ваш сайт, вероятно, будет выглядеть не так, как вы хотите, и вам нужно будет внести некоторые изменения.

Yoast также настоятельно рекомендует не использовать директивы robots.txt для скрытия некачественного контента, такого как категории, дата и другие архивы, а работать с noindex, вместо этого следуя метатегам . Также обратите внимание, что в их файле нет ссылки на карту сайта по указанной выше причине.

Основатель

WordPress Мэтт Мулленвег использует аналогичный минималистичный подход:

 Агент пользователя: *
Запретить:

Пользовательский агент: Mediapartners-Google *
Запретить:

Пользовательский агент: *
Запретить: / dropbox
Disallow: / contact
Запретить: /blog/wp-login.php
Запретить: / blog / wp-admin 

Вы можете видеть, что он блокирует только свой Dropbox и папку контактов, а также важные файлы и папки администратора и входа в систему для WordPress. Хотя некоторые люди делают последнее из соображений безопасности, скрытие папки wp-admin — это то, чего Yoast на самом деле не рекомендует.

Наш следующий пример взят из WPBeginner:

 User-Agent: *
Разрешить: /? Display = wide
Разрешить: / wp-content / uploads /
Запретить: / wp-content / plugins /
Запретить: /readme.html
Запретить: / ссылаться /

Карта сайта: http://www.wpbeginner.com/post-sitemap.xml
Карта сайта: http://www.wpbeginner.com/page-sitemap.xml
Карта сайта: http://www.wpbeginner.com/deals-sitemap.xml
Карта сайта: http://www.wpbeginner.com/hosting-sitemap.xml 

Вы можете видеть, что они блокируют свои партнерские ссылки (см. Папку «ссылаться»), а также плагины и readme.html файл. Как объясняется в этой статье, последнее происходит во избежание вредоносных запросов, направленных на определенные версии WordPress. Запретив файл, вы сможете защитить себя от массовых атак.

Блокировка папки плагинов также направлена ​​на то, чтобы хакеры не смогли проникнуть в уязвимые плагины. Здесь они используют другой подход, чем Yoast, который изменил это не так давно, чтобы стили в папках плагинов не терялись.

Одна вещь, которую WPBeginner делает иначе, чем два других примера, — это явно установить для wp-content / uploads значение «разрешить», даже если это не заблокировано какой-либо другой директивой.Они заявляют, что это сделано для того, чтобы все поисковые системы включали эту папку в свой поиск.

Однако я не вижу в этом особого смысла, поскольку поисковые системы по умолчанию индексируют все, что они могут найти. Поэтому я не думаю, что если позволить им сканировать что-то конкретное, это сильно поможет.

Окончательный приговор

Я с Yoast, когда дело доходит до настройки robots.txt.

С точки зрения SEO имеет смысл дать Google как можно больше, чтобы они могли понять ваш сайт.Однако, если есть части, которые вы хотели бы оставить для себя (например, партнерские ссылки), запретите их по желанию.

Это также идет рука об руку с соответствующим разделом Кодекса WordPress:

«Добавление записей в robots.txt для помощи в поисковой оптимизации — распространенное заблуждение. Google сообщает, что вы можете использовать robots.txt для блокировки частей вашего сайта, но в наши дни предпочитает, чтобы вы этого не делали. Вместо этого используйте теги noindex на уровне страницы, чтобы работать с некачественными частями вашего сайта. С 2009 года Google постоянно высказывает свои рекомендации избегать блокировки файлов JS и CSS, а команда Google по обеспечению качества поиска всегда активнее продвигает политику прозрачности веб-мастерами, чтобы помочь Google убедиться, что мы не «маскируем» или не связываем для неприглядного спама на заблокированных страницах.Поэтому идеальный файл robots ничего не запрещает и может ссылаться на XML Sitemap, если был создан точный (что само по себе редко!).

WordPress по умолчанию блокирует только пару файлов JS, но почти соответствует рекомендациям Google здесь ».

Довольно ясно, не правда ли? Имейте в виду, что если вы решите разместить ссылку на карту сайта, вам обязательно следует отправить ее в поисковые системы напрямую через их пакеты для веб-мастеров.

Что бы вы ни решили сделать, не забудьте протестировать вашу карту сайта ! Это можно сделать следующими способами:

  • Зайдите на ваш сайт.com / robots.txt, чтобы проверить, отображается ли он
  • Запустите его с помощью тестера, чтобы найти синтаксические ошибки (например, эту)
  • Выполните выборку и визуализируйте, чтобы проверить, видит ли Google то, что вы хотели бы, чтобы они увидели
  • Обратите внимание на возможные сообщения об ошибках из Инструментов Google для веб-мастеров

Коротко о Robots.txt для WordPress

Создание файла robots.txt для вашего веб-сайта — важный и часто игнорируемый шаг в поисковой оптимизации. Указание поисковым роботам, какие части вашего сайта нужно проиндексировать, а какие оставить в покое, поможет вам убрать ненужный контент из результатов поиска.

С другой стороны, как мы видели, блокировка Google слишком большой части вашего сайта может серьезно повлиять на его производительность в поисковой выдаче.

Если раньше было уместно запретить доступ к множеству папок и файлов, сегодня тенденция больше идет к минимально настроенному robots.txt.

При настройке файла обязательно тщательно протестируйте его, чтобы он не причинял вам больше вреда, чем помогает.

Как вы настраивали robots.текст? Хотите добавить какие-нибудь важные моменты?

Создайте лучший с помощью этого руководства на 2021 год

Коротко о Robots.txt

Файл robots.txt содержит директивы для поисковых систем. Вы можете использовать его, чтобы запретить поисковым системам сканировать определенные части вашего веб-сайта и дать поисковым системам полезные советы о том, как они могут лучше всего сканировать ваш веб-сайт. Файл robots.txt играет большую роль в SEO.

При внедрении robots.txt помните о следующих передовых методах:

  • Будьте осторожны при внесении изменений в роботов.txt: этот файл может сделать большую часть вашего сайта недоступной для поисковых систем.
  • Файл robots.txt должен находиться в корне вашего веб-сайта (например, http://www.example.com/robots.txt ).
  • Файл robots.txt действителен только для полного домена, в котором он находится, включая протокол ( http или https ).
  • Разные поисковые системы по-разному интерпретируют директивы. По умолчанию всегда побеждает первая соответствующая директива.Но с Google и Bing побеждает специфика.
  • По возможности избегайте использования директивы задержки сканирования для поисковых систем.

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам, каковы правила взаимодействия с вашим сайтом. Большая часть SEO — это отправка правильных сигналов поисковым системам, а файл robots.txt — один из способов сообщить поисковым системам о ваших предпочтениях сканирования.

В 2019 году мы заметили довольно много изменений, связанных с роботами.txt: Google предложила расширение для протокола исключения роботов и открыла исходный код для своего парсера robots.txt.

TL; DR

  • Интерпретатор robots.txt от Google довольно гибкий и на удивление снисходительный.
  • В случае директив путаницы, Google делает ошибку и предполагает, что разделы должны быть ограничены, а не неограниченны.
Файл robots.txt сообщает поисковым системам, к каким URL нельзя обращаться.

Поисковые системы регулярно проверяют роботов сайта.txt, чтобы узнать, есть ли какие-либо инструкции по сканированию веб-сайта. Мы называем эти инструкции директивами .

Если файл robots.txt отсутствует или нет применимых директив, поисковые системы будут сканировать весь веб-сайт.

Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы могут игнорировать (части) вашего файла robots.txt. Хотя директивы в файле robots.txt являются сильным сигналом для поисковых систем, важно помнить о файлах robots.txt представляет собой набор необязательных директив для поисковых систем, а не мандат.

robots.txt — самый конфиденциальный файл во вселенной SEO. Один персонаж может сломать весь сайт.

Терминология, связанная с файлом robots.txt

Файл robots.txt является реализацией стандарта исключения роботов , также называемого протоколом исключения роботов .

Зачем вам нужен файл robots.txt?

Роботы.txt играет важную роль с точки зрения SEO. Он сообщает поисковым системам, как лучше всего сканировать ваш сайт.

Используя файл robots.txt, вы можете запретить поисковым системам доступ к определенным частям вашего веб-сайта , предотвратить дублирование контента и дать поисковым системам полезные советы о том, как они могут сканировать ваш веб-сайт более эффективно .

Будьте осторожны, , когда вносите изменения в свой robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.

Robots.txt часто слишком часто используется для уменьшения дублирования контента, тем самым убивая внутренние ссылки, поэтому будьте с ними очень осторожны. Мой совет — всегда использовать его только для файлов или страниц, которые поисковые системы никогда не должны видеть или которые могут существенно повлиять на сканирование, будучи допущенными к ним. Типичные примеры: области входа в систему, которые генерируют много разных URL-адресов, тестовые области или где может существовать многогранная навигация. И обязательно следите за своим файлом robots.txt на предмет любых проблем или изменений.

Подавляющее большинство проблем, которые я вижу с роботами.txt делятся на три сегмента:

  1. Неправильная обработка подстановочных знаков. Довольно часто можно увидеть заблокированные части сайта, которые должны были быть заблокированы. Иногда, если вы не будете осторожны, директивы могут также противоречить друг другу.
  2. Кто-то, например разработчик, неожиданно внес изменение (часто при добавлении нового кода) и случайно изменил robots.txt без вашего ведома.
  3. Включение директив, не относящихся к robots.txt файл. Robots.txt является веб-стандартом и имеет некоторые ограничения. Я часто вижу, как разработчики создают директивы, которые просто не работают (по крайней мере, для подавляющего большинства поисковых роботов). Иногда это безобидно, иногда не очень.

Пример

Давайте рассмотрим пример, чтобы проиллюстрировать это:

У вас есть веб-сайт электронной коммерции, и посетители могут использовать фильтр для быстрого поиска по вашим товарам. Этот фильтр генерирует страницы, которые в основном показывают то же содержание, что и другие страницы.Это отлично работает для пользователей, но сбивает с толку поисковые системы, поскольку создает дублированный контент.

Вы не хотите, чтобы поисковые системы индексировали эти отфильтрованные страницы и тратили свое драгоценное время на эти URL с отфильтрованным содержанием. Поэтому вам следует настроить правила Disallow , чтобы поисковые системы не получали доступ к этим отфильтрованным страницам продуктов.

Предотвращение дублирования контента также можно выполнить с помощью канонического URL или метатега robots, однако они не адресуются, позволяя поисковым системам сканировать только важные страницы.

Использование канонического URL или метатега robots не помешает поисковым системам сканировать эти страницы. Это только помешает поисковым системам показывать эти страницы в результатах поиска. Поскольку поисковые системы имеют ограниченное время для сканирования веб-сайта, это время следует потратить на страницы, которые вы хотите отображать в поисковых системах.

Ваш robots.txt работает против вас?

Неправильно настроенный файл robots.txt может сдерживать эффективность SEO. Сразу же проверьте, так ли это на вашем сайте!

Это очень простой инструмент, но robots.txt может вызвать множество проблем, если он неправильно настроен, особенно для крупных веб-сайтов. Очень легко сделать ошибки, например заблокировать весь сайт после развертывания нового дизайна или CMS или не заблокировать разделы сайта, которые должны быть конфиденциальными. Для крупных веб-сайтов очень важно обеспечить эффективное сканирование Google, и хорошо структурированный файл robots.txt является важным инструментом в этом процессе.

Вам нужно потратить время, чтобы понять, какие разделы вашего сайта лучше всего держать подальше от Google, чтобы они тратили как можно больше своих ресурсов на сканирование страниц, которые вам действительно интересны.

Как выглядит файл robots.txt?

Пример того, как может выглядеть простой файл robots.txt для веб-сайта WordPress:

  Агент пользователя: *
Disallow: / wp-admin /  

Давайте объясним анатомию файла robots.txt на основе приведенного выше примера:

  • User-agent: пользовательский агент указывает, для каких поисковых систем предназначены следующие директивы.
  • * : это указывает на то, что директивы предназначены для всех поисковых систем.
  • Disallow : это директива, указывающая, какой контент недоступен пользовательскому агенту .
  • / wp-admin / : это путь , который недоступен для пользовательского агента .

Вкратце: этот файл robots.txt сообщает всем поисковым системам, чтобы они не заходили в каталог / wp-admin / .

Давайте более подробно проанализируем различные компоненты файлов robots.txt:

User-agent в robots.txt

Каждая поисковая система должна идентифицировать себя с помощью пользовательского агента . Роботы Google идентифицируются как , Googlebot , например, роботы Yahoo — как Slurp , а робот Bing — как , BingBot и так далее.

Запись пользовательского агента определяет начало группы директив. Все директивы между первым пользовательским агентом и следующей записью пользовательского агента обрабатываются как директивы для первого пользовательского агента .

Директивы

могут применяться к определенным пользовательским агентам, но они также могут применяться ко всем пользовательским агентам. В этом случае используется подстановочный знак: User-agent: * .

Директива Disallow в robots.txt

Вы можете запретить поисковым системам получать доступ к определенным файлам, страницам или разделам вашего веб-сайта. Это делается с помощью директивы Disallow . За директивой Disallow следует путь , к которому не следует обращаться. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Запретить: / wp-admin /  

В этом примере всем поисковым системам предлагается не обращаться к каталогу / wp-admin / .

Разрешить директиву в robots.txt

Директива Allow используется для противодействия директиве Disallow . Директива Allow поддерживается Google и Bing. Используя вместе директивы Allow и Disallow , вы можете указать поисковым системам, что они могут получить доступ к определенному файлу или странице в каталоге, который иначе запрещен.За директивой Allow следует путь , к которому можно получить доступ. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Разрешить: /media/terms-and-conditions.pdf
Disallow: / media /  

В приведенном выше примере всем поисковым системам не разрешен доступ к каталогу / media / , за исключением файла /media/terms-and-conditions.pdf .

Важно: при одновременном использовании директив Allow и Disallow не используйте подстановочные знаки, так как это может привести к конфликту директив.

Пример конфликтующих директив
  Агент пользователя: *
Разрешить: / каталог
Disallow: * .html  

Поисковые системы не будут знать, что делать с URL-адресом http://www.domain.com/directory.html . Для них неясно, разрешен ли им доступ. Когда директивы не ясны для Google, они будут использовать наименее строгую директиву, что в данном случае означает, что они фактически получат доступ к http://www.domain.com/directory.html .

Запрещающие правила в файле robots.txt сайта невероятно эффективны, поэтому с ними следует обращаться осторожно. Для некоторых сайтов предотвращение сканирования определенных URL-адресов поисковыми системами имеет решающее значение для обеспечения возможности сканирования и индексации нужных страниц, но неправильное использование правил запрета может серьезно повредить SEO сайта.

Отдельная строка для каждой директивы

Каждая директива должна быть на отдельной строке, иначе поисковые системы могут запутаться при парсинге robots.txt файл.

Пример неверного файла robots.txt

Предотвратить появление файла robots.txt вроде этого:

  Пользовательский агент: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3/ 

Robots.txt — одна из тех функций, которые, как я чаще всего наблюдаю, реализованы неправильно, поэтому он не блокирует то, что они хотели заблокировать, или блокирует больше, чем они ожидали, и оказывает негативное влияние на их веб-сайт. Robots.txt — очень мощный инструмент, но слишком часто он неправильно настраивается.

Использование подстановочного знака *

Подстановочный знак можно использовать не только для определения пользовательского агента , но и для сопоставления URL-адресов. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.

Пример
  Агент пользователя: *
Запретить: *?  

В приведенном выше примере всем поисковым системам запрещен доступ к URL-адресам, содержащим вопросительный знак (? ).

Разработчики или владельцы сайтов часто думают, что могут использовать всевозможные регулярные выражения в файле robots.txt, тогда как на самом деле допустимо только очень ограниченное количество сопоставлений с образцом — например, подстановочные знаки ( * ). Кажется, время от времени возникает путаница между файлами .htaccess и robots.txt.

Использование конца URL $

Чтобы указать конец URL-адреса, вы можете использовать знак доллара ( $ ) в конце пути .

Пример
  Агент пользователя: *
Disallow: * .php $  

В приведенном выше примере поисковым системам не разрешен доступ ко всем URL-адресам, заканчивающимся на.php. URL-адреса с параметрами, например https://example.com/page.php?lang=en не будет запрещен, поскольку URL-адрес не заканчивается после .php .

Добавьте карту сайта в robots.txt

Несмотря на то, что файл robots.txt был изобретен, чтобы указывать поисковым системам, какие страницы не сканировать , файл robots.txt также можно использовать для указания поисковым системам XML-карты сайта. Это поддерживается Google, Bing, Yahoo и Ask.

На карту сайта XML следует ссылаться как на абсолютный URL.URL-адрес , а не должен находиться на том же хосте, что и файл robots.txt.

Ссылка на XML-карту сайта в файле robots.txt — одна из лучших практик, которую мы советуем вам делать всегда, даже если вы уже отправили свою XML-карту сайта в Google Search Console или Bing Webmaster Tools. Помните, что существует больше поисковых систем.

Обратите внимание, что в файле robots.txt можно ссылаться на несколько карт сайта XML.

Примеры

Несколько файлов Sitemap XML, определенных в файле robots.txt файл:

  Агент пользователя: *
Запретить: / wp-admin /
Карта сайта: https://www.example.com/sitemap1.xml
Карта сайта: https://www.example.com/sitemap2.xml  

В приведенном выше примере говорится, что все поисковые системы не обращаются к каталогу / wp-admin / и что есть две карты сайта XML, которые можно найти по адресу https://www.example.com/sitemap1.xml и https://www.example.com/sitemap2.xml .

Одна карта сайта XML, определенная в файле robots.txt:

  Агент пользователя: *
Запретить: / wp-admin /

Карта сайта: https: // www.example.com/sitemap_index.xml  

В приведенном выше примере говорится, что все поисковые системы не должны обращаться к каталогу / wp-admin / и что карту сайта XML можно найти по адресу https://www.example.com/sitemap_index .xml .

Часто задаваемые вопросы

Комментарии

Комментарии предшествуют # и могут быть размещены в начале строки или после директивы в той же строке. Все, что находится после # , будет проигнорировано.Эти комментарии предназначены только для людей.

Пример 1
  # Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Disallow: / wp-admin /  
Пример 2
  User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.  

В приведенных выше примерах передается одно и то же сообщение.

Задержка сканирования в robots.txt

Директива Crawl-delay — это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов.Если поисковые системы могут перегружать сервер, добавление Crawl-delay в файл robots.txt является лишь временным решением. Дело в том, что ваш сайт работает в плохой среде хостинга и / или ваш сайт неправильно настроен, и вы должны исправить это как можно скорее.

Пример robots.txt с указанной задержкой сканирования для Bing

. Способ обработки поисковыми системами Crawl-delay отличается. Ниже мы объясним, как с этим справляются основные поисковые системы.

Часто задаваемые вопросы

Crawl-delay и Google

Сканер Google, робот Google, не поддерживает директиву Crawl-delay , поэтому не беспокойтесь об определении задержки сканирования Google.

Однако Google поддерживает определение скорости сканирования (или «скорости запросов», если хотите) в консоли поиска Google.

Установка скорости сканирования в GSC

  1. Войдите в старую консоль поиска Google (открывается в новой вкладке).
  2. Выберите веб-сайт, для которого нужно определить скорость сканирования.
  3. Есть только один параметр, который вы можете изменить: Скорость сканирования , с ползунком, где вы можете установить предпочтительную скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».

Вот как это выглядит в Google Search Console:

Задержка сканирования и Bing, Yahoo и Яндекс

Bing, Yahoo и Яндекс поддерживают директиву Crawl-delay для ограничения сканирования веб-сайта. Однако их интерпретация задержки сканирования немного отличается, поэтому обязательно проверьте их документацию:

Директива Crawl-delay должна быть размещена сразу после директив Disallow или Allow .

Пример:
  Пользовательский агент: BingBot
Disallow: / private /
Задержка сканирования: 10  

Задержка сканирования и Baidu

Baidu не поддерживает директиву crawl-delay , однако можно зарегистрировать учетную запись Baidu Webmaster Tools, в которой вы можете контролировать частоту сканирования, аналогично Google Search Console.

Когда использовать файл robots.txt?

Мы рекомендуем всегда использовать файл robots.txt.В его наличии нет абсолютно никакого вреда, и это отличное место для передачи указаний поисковым системам о том, как лучше всего сканировать ваш сайт.

Файл robots.txt может быть полезен для предотвращения сканирования и индексации определенных областей или документов на вашем сайте. Примерами являются, например, промежуточный сайт или PDF-файлы. Тщательно спланируйте, что нужно проиндексировать поисковыми системами, и помните, что контент, недоступный через robots.txt, может быть найден сканерами поисковых систем, если на него есть ссылки из других частей веб-сайта.

Лучшие практики robots.txt

Лучшие практики robots.txt подразделяются на следующие категории:

Расположение и имя файла

Файл robots.txt всегда должен размещаться в корне веб-сайта (в каталоге верхнего уровня хоста) и иметь имя файла robots.txt , например: https: //www.example .com / robots.txt . Обратите внимание, что URL-адрес файла robots.txt, как и любой другой URL-адрес, чувствителен к регистру.

Если файл robots.txt не может быть найден в расположении по умолчанию, поисковые системы сочтут, что директивы отсутствуют, и уйдут на ваш сайт.

Порядок старшинства

Важно отметить, что поисковые системы по-разному обрабатывают файлы robots.txt. По умолчанию первая соответствующая директива всегда побеждает .

Однако с Google и Bing специфичность побеждает . Например: директива Allow имеет преимущество перед директивой Disallow , если длина ее символа больше.

Пример
  Агент пользователя: *
Разрешить: / about / company /
Disallow: / about /  

В приведенном выше примере всем поисковым системам, включая Google и Bing, не разрешен доступ к каталогу / about / , за исключением подкаталога / about / company / .

Пример
  Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /  

В приведенном выше примере всем поисковым системам , кроме Google и Bing , запрещен доступ к каталогу / about / .Сюда входит каталог / about / company / .

Google и Bing имеют доступ к , потому что директива Allow длиннее , чем директива Disallow .

Только одна группа директив на робота

Для каждой поисковой системы можно определить только одну группу директив. Наличие нескольких групп директив для одной поисковой системы сбивает их с толку.

Будьте как можно более конкретными

Директива Disallow также срабатывает при частичных совпадениях.Будьте как можно более конкретными при определении директивы Disallow , чтобы предотвратить непреднамеренное запрещение доступа к файлам.

Пример:
  Агент пользователя: *
Disallow: / directory  

В приведенном выше примере поисковым системам запрещен доступ к:

  • / каталог
  • / каталог /
  • / имя-каталога-1
  • / имя-каталога.html
  • / имя-каталога.php
  • / имя-каталога.pdf

Директивы для всех роботов, а также директивы для конкретного робота

Для робота действует только одна группа директив. В случае, если директивы, предназначенные для всех роботов, сопровождаются директивами для конкретного робота, будут приняты во внимание только эти конкретные директивы. Чтобы конкретный робот также выполнял директивы для всех роботов, вам необходимо повторить эти директивы для конкретного робота.

Давайте посмотрим на пример, который проясняет это:

Пример
  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / not-loaded-still /  

В приведенном выше примере всем поисковым системам , кроме Google , запрещен доступ к / secret / , / test / и / not-loaded-yet / . Google только не разрешен доступ к / not-launch-until / , но разрешен доступ к / secret / и / test / .

Если вы не хотите, чтобы робот googlebot имел доступ к / secret / и / not-loaded-yet / , вам необходимо повторить эти директивы специально для googlebot :

  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / secret /
Запретить: / not-launch-yet /  

Обратите внимание, что ваш файл robots.txt общедоступен. Запрет на использование разделов веб-сайта может быть использован злоумышленниками как вектор атаки.

Robots.txt может быть опасным. Вы не только указываете поисковым системам, куда вы не хотите, чтобы они смотрели, вы говорите людям, где вы скрываете свои грязные секреты.

Файл robots.txt для каждого (под) домена

Директивы Robots.txt применяются только к (под) домену, в котором размещен файл.

Примеры

http://example.com/robots.txt действителен для http://example.com , но не для http: // www.example.com или https://example.com .

Рекомендуется, чтобы в вашем (под) домене был доступен только один файл robots.txt.

Если у вас есть несколько файлов robots.txt, убедитесь, что они возвращают HTTP-статус 404 или 301 перенаправляют их в канонический файл robots.txt.

Противоречивые рекомендации: robots.txt и Google Search Console

Если ваш файл robots.txt конфликтует с настройками, определенными в Google Search Console, Google часто предпочитает использовать настройки, определенные в Google Search Console, вместо директив, определенных в robots.txt файл.

Следите за своим файлом robots.txt

Важно отслеживать изменения в файле robots.txt. На ContentKing мы видим множество проблем, из-за которых неправильные директивы и внезапные изменения в файле robots.txt вызывают серьезные проблемы с поисковой оптимизацией.

Это верно, особенно при запуске новых функций или нового веб-сайта, который был подготовлен в тестовой среде, поскольку они часто содержат следующий файл robots.txt:

  Агент пользователя: *
Disallow: /  

Мы построили роботов.txt, отслеживание изменений и оповещение по этой причине.

Как узнать об изменении файла robots.txt?

Мы видим это постоянно: файлы robots.txt меняются без ведома команды цифрового маркетинга. Не будь этим человеком. Начните отслеживать свой файл robots.txt, теперь получайте оповещения при его изменении!

Не используйте noindex в своем robots.txt

В течение многих лет Google уже открыто рекомендовал не использовать неофициальную директиву noindex (открывается в новой вкладке).Однако с 1 сентября 2019 года Google полностью прекратил его поддержку (открывается в новой вкладке).

Неофициальная директива noindex никогда не работала в Bing, что подтверждено Фредериком Дубутом в этом твите (открывается в новой вкладке):

Лучший способ сообщить поисковым системам, что страницы не следует индексировать, — это использовать метатег robots или X-Robots-Tag.

Часто задаваемые вопросы

Запретить спецификацию UTF-8 в файле robots.txt

BOM обозначает метку порядка байтов , невидимый символ в начале файла, используемый для обозначения кодировки Unicode текстового файла.

В то время как Google заявляет (открывается в новой вкладке), они игнорируют необязательную отметку порядка байтов Unicode в начале файла robots.txt, мы рекомендуем предотвратить «UTF-8 BOM», потому что мы видели, что это вызывает проблемы с интерпретацией файла robots.txt поисковыми системами.

Несмотря на то, что Google заявляет, что может с этим справиться, вот две причины, чтобы предотвратить использование спецификации UTF-8:

  1. Вы не хотите, чтобы у вас возникла двусмысленность в ваших предпочтениях при сканировании в поисковые системы.
  2. Существуют и другие поисковые системы, которые могут быть не такими снисходительными, как утверждает Google.

Примеры robots.txt

В этой главе мы рассмотрим широкий спектр примеров файлов robots.txt:

Разрешить всем роботам доступ ко всему

Есть несколько способов сообщить поисковым системам, что они могут получить доступ ко всем файлам:

Или файл robots.txt пустой, или файл robots.txt вообще отсутствует.

Запретить всем роботам доступ ко всему

Пример robots.txt ниже сообщает всем поисковым системам, что им нельзя обращаться ко всему сайту:

  Агент пользователя: *
Disallow: /  

Обратите внимание, что только ОДИН дополнительный символ может иметь решающее значение.

У всех ботов Google нет доступа

  Пользовательский агент: googlebot
Disallow: /  

Обратите внимание, что запрет на использование робота Googlebot распространяется на всех роботов Googlebot. Сюда входят роботы Google, которые ищут, например, новости ( googlebot-news ) и изображения ( googlebot-images ).

Все боты Google, кроме новостных Googlebot, не имеют доступа

  Пользовательский агент: googlebot
Запретить: /

Пользовательский агент: googlebot-news
Запрещено:  

Робот Googlebot и Slurp не имеют доступа

  Агент пользователя: Slurp
Пользовательский агент: googlebot
Disallow: /  

У всех роботов нет доступа к двум каталогам

  Агент пользователя: *
Запретить: / admin /
Disallow: / private /  

Не все роботы имеют доступ к одному конкретному файлу

  Агент пользователя: *
Запретить: / каталог / some-pdf.pdf  

У робота Googlebot нет доступа к / admin /, а у Slurp нет доступа к / private /

.
  Пользовательский агент: googlebot
Запретить: / admin /

Пользовательский агент: Slurp
Disallow: / private /  

Часто задаваемые вопросы

Файл robots.txt для WordPress

Приведенный ниже файл robots.txt специально оптимизирован для WordPress, при условии:

  • Вы не хотите, чтобы ваш раздел администратора сканировался.
  • Вы не хотите, чтобы ваши страницы результатов внутреннего поиска сканировались.
  • Вы не хотите, чтобы ваши страницы тегов и авторов сканировались.
  • Вы не хотите, чтобы ваша страница 404 сканировалась.
  Агент пользователя: *
Запретить: / wp-admin / # заблокировать доступ к разделу администратора
Запретить: /wp-login.php # заблокировать доступ в админку
Запретить: / search / # заблокировать доступ к страницам результатов внутреннего поиска
Запретить: *? S = * # заблокировать доступ к страницам результатов внутреннего поиска
Disallow: *? P = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Disallow: * & p = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Запретить: * & preview = * # заблокировать доступ к страницам предварительного просмотра
Запретить: / tag / # заблокировать доступ к страницам тегов
Запретить: / author / # заблокировать доступ к страницам авторов
Запретить: / 404-ошибка / # заблокировать доступ к странице 404

Карта сайта: https: // www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать в большинстве случаев, но вы должны всегда настраивать его и тестировать, чтобы убедиться, что он применим к вашей конкретной ситуации.

Файл robots.txt для Magento

Приведенный ниже файл robots.txt специально оптимизирован для Magento и сделает внутренние результаты поиска, страницы входа, идентификаторы сеансов и отфильтрованные наборы результатов, которые содержат критерии цена , цвет , материал материал и размер критерии недоступны для поисковых роботов. .

  Агент пользователя: *
Запретить: / catalogsearch /
Запретить: / поиск /
Запретить: / клиент / аккаунт / логин /
Запретить: / *? SID =
Запретить: / *? PHPSESSID =
Disallow: / *? Price =
Disallow: / * & price =
Запретить: / *? Color =
Запретить: / * & color =
Disallow: / *? Material =
Запретить: / * & материал =
Запретить: / *? Size =
Запретить: / * & size =

Карта сайта: https://www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать для большинства магазинов Magento, но вы должны всегда настраивать его и проверять, чтобы убедиться, что он применим к ваша точная ситуация.

Полезные ресурсы

Я бы всегда старался блокировать результаты внутреннего поиска в robots.txt на любом сайте, потому что эти типы поисковых URL-адресов представляют собой бесконечные и бесконечные пробелы. Робот Googlebot может попасть в ловушку робота-робота.

Каковы ограничения файла robots.txt?

Файл robots.txt содержит директивы

Несмотря на то, что robots.txt пользуется большим уважением в поисковых системах, он все же является директивой, а не предписанием.

Страницы по-прежнему отображаются в результатах поиска

Страницы, которые недоступны для поисковых систем из-за файла robots.txt, но имеют ссылки на них, могут по-прежнему отображаться в результатах поиска, если на них есть ссылки со страницы, которая просматривается. Пример того, как это выглядит:

Наконечник Pro

Эти URL-адреса можно удалить из Google с помощью инструмента удаления URL-адресов в Google Search Console. Обратите внимание, что эти URL-адреса будут только временно «скрыты». Чтобы они не попадали на страницы результатов поиска Google, вам необходимо отправлять запрос на скрытие URL-адресов каждые 180 дней.

Используйте robots.txt, чтобы заблокировать нежелательные и, вероятно, вредоносные обратные ссылки на партнерские программы. Не используйте robots.txt для предотвращения индексации контента поисковыми системами, поскольку это неизбежно приведет к сбою. Вместо этого при необходимости примените директиву noindex для роботов.

Файл robots.txt кешируется до 24 часов

Google указал, что файл robots.txt обычно кэшируется на срок до 24 часов. Это важно учитывать при внесении изменений в свои robots.txt файл.

Неясно, как другие поисковые системы борются с кешированием robots.txt, но в целом лучше избегать кеширования файла robots.txt, чтобы поисковым системам требовалось больше времени, чем необходимо, чтобы они могли уловить изменения.

Размер файла robots.txt

Для файлов robots.txt Google в настоящее время поддерживает ограничение на размер файла в 500 кибибайт (512 килобайт). Любое содержимое после этого максимального размера файла может игнорироваться.

Неясно, есть ли у других поисковых систем максимальный размер файла для роботов.txt файлы.

Часто задаваемые вопросы о robots.txt

🤖 Как выглядит пример файла robots.txt?

Вот пример содержания файла robots.txt: User-agent: * Disallow:. Это говорит всем сканерам, что они могут получить доступ ко всему.

⛔ Что делает Disallow all в robots.txt?

Когда вы устанавливаете robots.txt на «Запретить все», вы, по сути, говорите всем сканерам держаться подальше. Никакие сканеры, в том числе Google, не имеют доступа к вашему сайту.Это означает, что они не смогут сканировать, индексировать и оценивать ваш сайт. Это приведет к резкому падению органического трафика.

✅ Что делает Allow all в robots.txt?

Когда вы устанавливаете robots.txt на «Разрешить все», вы сообщаете каждому сканеру, что он может получить доступ к каждому URL-адресу на сайте. Правил приема просто нет. Обратите внимание, что это эквивалентно пустому файлу robots.txt или отсутствию файла robots.txt вообще.

🤔 Насколько важен robots.txt для SEO?

В общем, роботы.txt очень важен для SEO. Для более крупных веб-сайтов файл robots.txt необходим, чтобы дать поисковым системам очень четкие инструкции о том, к какому контенту нельзя обращаться.

Дополнительная литература

Полезные ресурсы

Часто задаваемые вопросы о robots.txt

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *