Wordpress

Стандартный robots txt для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

04.08.2021

Содержание

Работа с файлом robots.txt на WordPress-сайте

Необязательный в использовании файл, предназначенный для ограничения доступа поисковым роботам к содержимому сайта – это robots.txt. Появившийся более 20 лет назад, успел получить поддержку от большинства поисковых систем. Задает необходимые параметры индексации при помощи набора инструкций.

Основная информация и предназначение

Предоставляет поисковым системам путь для индексации важных элементов ресурса. Под этим подразумевается установка ограничений для директорий, страниц, а также указывается путь к зеркалу и карте сайта. Первым делом поисковая машина находит robots.txt (размещен в корневой папке) и после этого следует указанным директивам. При отсутствии этого файла – робот проводит полное сканирование сайта.

Отметим, что содержимое документа является рекомендацией, а не обязательной командой. Нет гарантий того, что скрытая страница не попадет в индекс.

Внимание! Все записи осуществляются латинскими символами. При использовании доменного имени на кириллице, стоит воспользоваться сервисом кодирования Punycode.

Работа с файлом robots.txt позволяет сократить время обработки ресурса. Будут индексироваться только необходимые страницы – это существенно снизит нагрузку на сервер.

Обязательному запрету подлежат:

Основные директивы и спецсимволы

Основные директивы устанавливают правила и определяют, какой конкретно робот должен их выполнять.

  • User-agent – указывает кому адресованы инструкции;
  • Disallow – устанавливает запрет на индексацию указанной части ресурса;
  • Allow – разрешает доступ поисковика к директории;
  • Sitemap – адрес расположения карты сайта.

User-agent

Является своеобразным приветствием для поисковиков, после директивы указывается имя бота. Список часто используемых значений:

  • Googlebot – основной бот Google;
  • Googlebot-Image – для изображений;
  • Yandex – основной робот Яндекс;
  • YandexDirect – обработка информации для контекстной рекламы;
  • YandexImages – для изображений;
  • YandexMetrika – система статистики;

Чтобы обратиться ко всем роботам, необходимо после директивы указать звездочку: «-agent: *».

Будет интересно – “Настройка файла robots.txt для WordPress”

Disallow и Allow

Использование Disallow необходимо для запрета сканирования определенного каталога или страницы. Чтобы робот не индексировал весь сайт, необходимо использовать слеш:

User-agent: *
Disallow: /

Для закрытия доступа к определенной директории, указывается ее название (слеш перед и после названия папки):

User-agent: *
Disallow: /category/

Таким же образом происходит запрет на индексацию отдельных файлов:

User-agent: *
Disallow: /category/samplepage.html

Если каталог заблокирован, а сканирование страницы, находящейся внутри обязательно – вносят следующие правки:

User-agent: *
Disallow: /category/
Allow: /category/samplepage.html

Данная комбинация осуществляет запрет на индексацию файлов одного типа:

User-agent: *
Disallow: /*.jpg$

Sitemap и Host

При наличии одной или нескольких карт сайта, указывается адрес каждой:

User-agent: *
Sitemap: https://yoursite. com/sitemap1.xml
Sitemap: https://yoursite.com/sitemap2.xml

Директива Host предназначена только для Яндекса, указывает основное зеркало сайта.

   User-agent: Yandex 
Host: yoursite.com

Спецсимволы

Звездочка (*) используется для запрета всех url, в имени которых содержится указанное слово, к примеру, закрываем доступ к файлам, имеющих в названии «semki»:

User-agent: *
Disallow: /*semki

Для отмены правила запрета, прописывается символ $ в конце строки. При этом, доступ закрыт только к указанной директории, ее содержимое будет доступно:

User-agent: *
Disallow: /page$ #доступ к /page запрещен
		 #доступ к /page.html открыт

Слеш указывается в каждой директиве, запрещает доступ к папке или вложенным страницам.

User-agent: *
Disallow: /category/ #доступ к файлам директории /category/ запрещен
Disallow: /category  #запрещается доступ ко всем файлам, начинающимся с /category

Решетка служит для добавления комментариев, необходимых для личного удобства.

Поисковые системы не учитывают информацию после этого знака.

По теме –“Карта сайта для WordPress с помощью плагина Google XML Sitemaps”

Стандартный robots.txt

Работа с файлом robots.txt на WordPress-сайте может создавать некоторые путаницы для неопытных вебмастеров, поскольку рекомендуемый код, в некоторых строках, лишен логики. Для каждого ресурса требуются свои запреты и разрешения, все зависит от направления деятельности и предпочтений владельца ресурса. Рекомендуем к изучению стандартное содержимое robots.txt:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: /xmlrpc.php
Disallow: */feed
Disallow: */author
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
host: yoursite.com
Sitemap: http://yoursite.com/sitemap.xml

В приведенном примере, директива указывает правила для всех поисковых машин, следующие строки закрывают доступ к административной части и служебным папкам. Запрещаются для индексации авторские страницы и лента RSS. Далее открывается доступ к индексации медиафайлов для ботов изображений популярных поисковиков. В конце прописывается хост и карта сайта. Также рекомендуется добавить запрет на сканирование архивов и меток, если не используются SEO-плагины (Yoast SEO, All in One SEO Pack).

Специально для вас – “Clearfy Pro: чистый код сайта на WordPress”

Данный код является наиболее сбалансированным и логичным, закрывает уязвимые файлы и директории:

User-agent: * Disallow: /cgi-bin # закрывает каталог скриптов на сервере Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search # поиск Disallow: /author/ # архив автора Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект. .. Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */page/ # все виды пагинации Allow: */uploads # открываем uploads Allow: /*/*.js # внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. #Disallow: /wp/ # когда WP установлен в подкаталог wp Sitemap: http://yoursite.com/sitemap.xml Sitemap: http://yoursite.com/sitemap2.xml # еще один файл #Sitemap: http://yoursite.com/sitemap.xml.gz # сжатая версия (.gz) Host: www.yoursite.com # для Яндекса

Первая строка указывает, что правила задействованы ко всем поисковым роботам. При желании можно указать требуемого бота. Далее запрещаем доступ к поиску, служебным директориям, начинающимся с «wp-», архивы, вложения и вставки embed. При помощи директивы Allow разрешаем сканирование всех элементов, имеющих в адресе /uploads – данный параметр обязателен, поскольку в верхней части кода установлен запрет /wp, в которую входит /wp-content/uploads с медиафайлами сайта. Файл robots.txt на WordPress-сайте содержит правило с картой сайта и хостом.

По последней информации, поисковики начали требовать открытие доступа к CSS и JS. Но, не стоит открывать весь каталог, ненужные скрипты и ресурсы страниц можно скрывать.

Создание и загрузка на сервер


Классический вариант – создать новый текстовый документ с именем robots, после чего внести данные при помощи редактора (рекомендуется Notepad+ или Alkepad). Добавляются рассмотренные вначале директивы, согласно требованиям администратора. Можно адаптировать готовые образцы, которые представлены на многих специализированных сайтах или блогах.


Еще один вариант – воспользоваться сервисами генерации robots.txt, к примеру: SeoLib, PR-CY, MediaSova, 4SEO. На этих ресурсах можно детально настроить правила индексирования, выбрать для каких роботов указываются инструкции, вписать конкретные страницы, папки и карту сайта. После этого, в окне результатов появится предпросмотр содержимого файла – если все устраивает, документ готов к сохранению.
Следующий этап – загрузка документа в корневую директорию площадки. Можно использовать диспетчер файлов в панели хостинг-провайдера, либо выполнить заливку через FTP клиент FileZilla. Robots.txt готов к проверке при помощи Google Webmaster и Яндекс Вебмастер.

Отобрано редакцией – “Установка и настройка CMS WordPress”

Инструмент Google:
  • Позволяет проанализировать код на наличие ошибок.
  • Все правки осуществляются прямо в панели проверки, после чего исправленный документ можно повторно загрузить на сервер.
  • Указывает разрешения и запреты, как реагирует бот на внесенные правила.
Инструмент Яндекс:
  • После авторизации можно проверять robots.txt без подтверждения прав на сайт.
  • Возможность пакетной обработки страниц.
  • Демонстрируются все ошибки директив, которые неправильно обрабатываются ботом.

P.S.

Работа с файлом robots.txt на WordPress-сайте заключается в тщательном анализе каталогов, которые подлежат запрету или разрешению к индексации. Стоит внимательно изучить основные директивы и важность определенных каталогов для поисковых машин. Процесс создания не затруднит малоопытных вебмастеров, поскольку в сети присутствует множество примеров и специальных сервисов для их генерации. Есть 2 основных правила при самостоятельном написании кода: строки, относящиеся к одному роботу – не должны содержать пропусков, разделение правил для разных ботов осуществляется при помощи пустой строки.

Интересно и по теме – “10 лучших SEO плагинов и инструментов WordPress в 2017 году”

Редактируем Robots.

txt в WordPress с помощью плагина All in One SEO

Файл robots.txt – это мощный инструмент SEO, поскольку он работает как руководство по веб-сайту для роботов или роботов, выполняющих сканирование поисковых систем. Указание ботам не сканировать ненужные страницы может увеличить скорость загрузки вашего сайта и улучшить рейтинг в поисковых системах.

Несмотря на то, что однажды я уже создавал пост про этот важный файл для оптимизации работы сайтов, в  этом мануале я более подробно расскажу вам, что такое файл robots.txt и почему он важен. А так же шаг за шагом покажу, как редактировать и как редактировать его в WordPress.

Что такое файл Robots.txt?

Файл robots.txt сообщает поисковым системам, как сканировать ваш сайт – где им можно это делать, а где нельзя.

Поисковые системы, такие как Google, используют этих поисковых роботов, иногда называемых веб-роботами, для архивирования и классификации веб-сайтов.

Большинство ботов настроены на поиск файла robots. txt на сервере до того, как он прочитает любой другой файл с вашего сайта. Это делается для того, чтобы увидеть, добавили ли вы особые инструкции по сканированию и индексированию вашего сайта.

Файл robots.txt обычно хранится в корневом каталоге, также известном как основная папка веб-сайта. URL-адрес может выглядеть так: http://www.example.com/robots.txt

Чтобы проверить файл robots.txt на своем веб-сайте, просто замените http://www.example.com/ на свой домен и добавьте robots.txt в конце.

Сейчас же, давайте посмотрим, как выглядит основной формат файла robots.txt:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
 
User-agent: [user-agent name]
Allow: [URL string to be crawled]
 
Sitemap: [URL of your XML Sitemap]

Чтобы это имело смысл, сначала нужно объяснить, что означает User-agent.
По сути, это имя бота или робота поисковой системы, которому вы хотите заблокировать или разрешить сканировать ваш сайт (например, робот Googlebot).

Во-вторых, вы можете включить несколько инструкций, чтобы разрешить или запретить определенные URL-адреса, а также добавить несколько карт сайта. Как вы, наверное, догадались, опция запрета указывает роботам поисковых систем не сканировать эти URL-адреса.

Файл Robots.txt по умолчанию в WordPress

По умолчанию WordPress автоматически создает файл robots.txt для вашего сайта. Так что, даже если вы не пошевелите пальцем, на вашем сайте уже должен быть файл robots.txt WordPress по умолчанию.

Но когда вы позже настроите его своими собственными правилами, содержимое по умолчанию будет заменено.

Стандартные файлы robots.txt выглядит так:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Звездочка после User-agent: * означает, что файл robots.txt предназначен для всех веб-роботов, посещающих ваш сайт. И, как уже упоминалось, Disallow: / wp-admin / указывает роботам не посещать вашу страницу wp-admin.

Вы можете протестировать свой файл robots. txt, добавив /robots.txt в конце своего доменного имени. Например, если вы введете в адресную строку браузера запись https://aioseo.com/robots.txt , то в нем отобразится файл robots.txt для сайта плагина AIOSEO, который его разработчики настроили вот так:

Теперь, когда вы знаете, что такое файл robots.txt и основы его работы, давайте посмотрим, почему файл robots.txt имеет значение в первую очередь.

Почему важен файл Robots.txt?

Файл robots.txt важен, потому, что с помощью него вы:

1. Оптимизируйте скорость загрузки вашего сайта – указав ботам не тратить время на страницы, которые вы не хотите, чтобы они сканировали и индексировали, вы можете освободить ресурсы и увеличить скорость загрузки вашего сайта.
2. Оптимизируете использования сервера – блокировка ботов, которые тратят ресурсы впустую, очистит ваш сервер и уменьшит количество ошибок 404.

Когда использовать мета-тег Noindex вместо robots.txt

Однако, если ваша основная цель – предотвратить включение определенных страниц в результаты поисковых систем, правильным подходом является использование метатега noindex.

Это связано с тем, что файл robots.txt напрямую не говорит поисковым системам не индексировать контент – он просто говорит им не сканировать его.
Другими словами, вы можете использовать файл robots.txt для добавления определенных правил взаимодействия поисковых систем и других ботов с вашим сайтом, но он не будет явно контролировать, индексируется ли ваш контент или нет.

С учетом сказанного, давайте покажем вам, как легко шаг за шагом редактировать файл robots.txt в WordPress с помощью сео-плагина для WordPress –  All in One SEO (AIOSEO)

Как редактировать файл Robots.txt в WordPress с помощью AIOSEO

Самый простой способ отредактировать файл robots.txt – использовать лучший плагин WordPress SEO All in One SEO (AIOSEO).  Если вы его установили, то это позволит вам контролировать свой веб-сайт и настраивать файл robots.txt, который заменяет файл WordPress по умолчанию.

Если вы этого еще не знали, AIOSEO – это полноценный плагин WordPress для SEO,
который позволяет вам оптимизировать контент для поисковых систем и повысить рейтинг всего за несколько кликов. Ознакомьтесь с его мощными инструментами и функциями SEO здесь.

Включаем пользовательский файл Robots.txt

Чтобы приступить к редактированию файла robots.txt, с помощью уже установленного плагина AIOSEO, выберите в меню плагина строку «Инструменты». Таким образом вы откроете вкладку «Редактор Robots.txt». Далее приступаем к настройкам плагина.

Примечание* Если у вас уже был настроен файл и он вас вполне устраивает, вы можете просто импортировать его в AIOSEO.

Перевод страницы предупреждения и рекомендаций, если у вас уже был установлен файл: “AIOSEO обнаружила физический файл robots.txt в корневой папке вашей установки WordPress. Мы рекомендуем удалить этот файл, так как он может вызвать конфликт с динамически созданным файлом WordPress. AIOSEO может импортировать этот файл и удалить его, или вы можете просто удалить его”.

Теперь на странице редактирования можно легко добавлять или удалять необходимые правила. Если вы пожелаете удалить ранее созданный файл-роботс – просто импортируйте и удалите его и пользуйтесь настройками по умолчанию. Но действовать нужно с осторожностью и не спешить удалять старый, несмотря на предупреждения плагина, а лучше используйте редактор.

AIOSEO сгенерирует динамический файл robots.txt. Его содержимое хранится в вашей базе данных WordPress и может быть просмотрено в вашем веб-браузере.

После того, как вы вошли в редактор Robots.txt, вам необходимо включить Custom Robots.txt.

Кнопка включения окна редактирования файла robots.txt

Затем вы увидите раздел предварительного просмотра файла Robots.txt в нижней части экрана, в котором показаны правила WordPress по умолчанию, которые вы можете заменить своими собственными.

Правила по умолчанию предписывают роботам не сканировать ваши основные файлы WordPress (страницы администратора). Также не рекомендуется сканировать плагины и темы. Они не содержат релевантного содержания и не нужны поисковым системам для сканирования.

Теперь давайте перейдем к тому, как вы можете добавить (или редактировать уже созданные) свои собственные правила с помощью создателя правил.

Добавление правил с помощью создателя правил

Конструктор правил используется для добавления ваших собственных правил для того, какие страницы роботы должны сканировать или нет.

Например, если вы хотите добавить правило, которое блокирует всех роботов из временного каталога (имеется в виду временная папка, например, на жестком диске), вы можете использовать для этого создатель правил.

Чтобы добавить собственное правило, просто введите User Agent (например, поисковый робот Googlebot) в поле User Agent. Или вы можете использовать символ *, чтобы ваше правило применялось ко всем пользовательским агентам (роботам).

Затем выберите «Разрешить» или «Запретить»,  или удалить (справа в таблице значок корзины), чтобы разрешить или заблокировать User Agent.

Или добавить новое правило:

По окончании редактирования и внесения изменений, вернитесь на верх страницы и осуществите просмотр файла в адресной строке браузера “Open Robots.txt”:

Что бы операция установки редактирования файла robots. txt была завершена, не забудьте сохранить изменения, кликнув на соответствующую кнопку в самом верху или внизу страницы редактирования.

Надеюсь, что это руководство показало вам, как легко редактировать файл robots.txt в WordPress. Теперь продолжайте и добавляйте свои собственные правила, и вы в кратчайшие сроки убедитесь, что ваш веб-сайт оптимизирован для достижения оптимальной производительности.

(Visited 1 times, 2 visits today)

Настройка robots.txt для WordPress, где находится и какой плагин использовать