Wordpress

Правильный robots txt для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

18.06.2021

Содержание

Создаем правильный robots.txt для сайта на WordPress

Здравствуйте, в сегодняшней статье мы продолжим тему базовых настроек. В данной статье мы с вами затронем тему настройки файла robots.txt.

Давайте для начала проанализируем, зачем нам нужен этот файл и нужен ли он нам вообще.

Robots.txt – это текстовый файл предназначенный специально для роботов поисковых систем, с помощью которого можно контролировать все процессы индексации на сайте. Если говорить еще проще с помощью этого файла мы можем закрыть от индексации любой раздел нашего сайта, включая ссылки и системные файлы WordPress.

Зачем что-то закрывать с помощью robots.txt, разве WordPress сам не создает все, что ему нужно при установке? Ответ – нет. Вы, как вебместер или блогер, должны сами контролировать все процессы на сайте. В первую очередь в robots.txt скрываются от индексации системные папки, такие как wp-admin, wp-login и прочие. Также, один и тот же материал сайта построенного на WordPress может размещаться под разными урлами (ссылками), что в свою очередь влечет за собой создание дублей. За наличие большого количества дублей поисковые системы могут наложить санкции на ваш проект, а выйти из под них не так уж и легко. Так что старайтесь исправить эту ситуацию еще в самом начале создания сайта.

 Так какой же он правильный robots.txt для WordPress?

Если вы только начинаете свой путь вебмастера, то вам наверняка неизвестны понятия директив: dissalow, allow и других. Сейчас мы с вами пройдемся по основных директивах для того чтобы вы осознанно создавали собственный robots.txt и не писали туда ничего лишнего.

«Useragent

Итак, обычно файл robots.txt начинается с того что задается директива – «User-agent:». Эта директива указывает на имя поискового робота. Так, как вам известно, каждая поисковая система имеет своего робота, а в большинстве случаев их несколько.

Для того чтобы подстроить ваш сайт под требования конкретной поисковой системы, мы можем выставить необходимые настройки специально для нее. Так, в рунете наиболее популярными поисковиками являются Яндекс и Google, то отдельные настройки в файле robots.txt, пишутся именно для них.

Для того чтобы задать директивы для Яндекса, стоит писать:

User-agent: Yandex

Для Google она будет иметь следующий вид:

User-agent: Googlebot

В интернете вы можете найти названия роботов и других поисковых систем, если они вдруг вам понадобятся, а так обычно мимо приведенных выше директив, указывается директива:

User-agent: *

В которой * — означает любой текст. То есть, таким образом, мы указываем настройки для всех остальных поисковых роботов. Зачастую этого вполне достаточно.

«Disallow:»

Это директива, которая запрещает поисковому роботу индексировать какую либо часть вашего сайта.

Давайте, для того чтобы было бы более понятно рассмотрим несколько примеров ее применения.

Для того чтобы закрыть какую либо папку в дистрибутиве WordPress от индексирования достаточно прописать:

Disallow: /имя вашей папки

Для вложенных папок ситуация таже:

Disallow: /имя вашей папки/имя вложенной папки

Идем дальше, закрывать от индексации можно и по определенным символам, например «?».

Disallow: /*?*

Таким способом закрываются все ссылки, где встречается «?». В WordPress такие ссылки формируются по умолчанию.

?post=1

Суть, я думаю, понятна. Таким способом можно закрыть комментарии, ленты новостей и прочие разделы сайта.

Будьте внимательны! Если прописать:

Disallow: /

То это полностью закроет ваш сайт от индексации.

«Allow:»

Эта директива имеет суть совершенно противоположную приведенной выше. Как вы поняли, с помощью нее, вы можете разрешить к индексированию какой либо раздел сайта, например:

Allow: / имя вашей папки

«Host:»

Директива хост задается для указания основного зеркала вашего сайта, то есть с www или без, например.

Host: www.вашсайт.com

Зачастую она задается для Яндекса.

«Sitemap:»

И последняя директива, которую мы рассмотрим — «Sitemap:».

Она указывает для поискового робота путь к карте сайта в формате .xml. Пример использования:

Sitemap: http://вашсайт.com/sitemap.xml

Итак, я приведу вам пример файла robots.txt для WordPress, которым пользуюсь я сам. Но под различные проекты я все же его немного изменяю.

User-agent:*
Allow: */uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /page/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Allow: */uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /page/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: вашсайт.com
Sitemap: http://вашсайт.com/sitemap.xml

Для справки. Файл robots.txt лежит в открытом доступе на любом сайте. Заходите и проверяйте его на популярных блогах,  делайте свои выводы, но смотрите не переборщите!

До следующих уроков.

Файл robots.txt для WordPress. Создание и правильная индексация

В интернете можно найти много статей какой robots.txt для WordPress лучше использовать, но безусловно администратор сайта должен самостоятельно определить, что необходимо отдавать ботам для индексации, а что запрещать.

Я как и многие другие потратив приличное количество времени на поиск оптимального шаблона robots.txt уяснил только одно, что конкретного варианта нет. Вы можете экспериментировать, никто вам этого не запрещает.

Создаем robots.txt для WordPress

Ниже представлен код одного из моих проектов про технологии и гаджеты, посещаемость ресурса более 7500 уникальных посетителей  в сутки.

В своем каталоге сайта создайте файл и за основу можете взять мой robots.txt:

User-agent: *                      #Для всех ботов, кроме Яндекса и Google
Allow: /wp-content/plugins/*.js    #Разрешаем js-скрипты в папке плагинов 
Allow: /wp-content/plugins/*.css   #Разрешаем css файлы в папке плагинов
Allow: /wp-content/plugins/*.jpg   #Разрешаем картинки в папке плагинов
Allow: /wp-content/plugins/*.jpeg  #Разрешаем картинки в папке плагинов
Allow: /wp-content/plugins/*.png   #Разрешаем картинки в папке плагинов 
Allow: /wp-includes/*.js           #Разрешаем js-скриты в главной папке WordPress
Allow: /wp-includes/*.css          #Разрешаем css в главной папке WordPress
Allow: /wp-content/themes/*.js     #Разрешаем js-скриты в теме
Allow: /wp-content/themes/*.css    #Разрешаем css файлы в теме
Allow: /wp-content/uploads/*.jpg   #Разрешаем индексировать загруженные картинки
Allow: /wp-content/uploads/*.jpeg  #Разрешаем индексировать загруженные картинки
Allow: /wp-content/uploads/*.gif   #Разрешаем индексировать загруженные картинки
Allow: /wp-content/uploads/*.png   #Разрешаем индексировать загруженные картинки
Disallow: /xmlrpc.php              #Запрещаем файл интеграции WordPress API
Disallow: /cgi-bin                 #Запрещаем папку со скриптами
Disallow: /wp-admin                #Запрещаем файлы в административной части WordPress
Disallow: /wp-includes             #Запрещаем файлы в ядре WordPress
Disallow: /wp-content/plugins      #Запрещаем файлы плагинов
Disallow: /wp-content/cache        #Запрещаем кеш, отдаем только актуальные файлы
Disallow: /wp-content/themes       #Запрещаем файлы тем
Disallow: /trackback               #Запрещаем уведомления о ссылках
Disallow: */feed                   #Запрещаем фиды
Disallow: */comment                #Запрещаем комментарии
Disallow: *comments                #Запрещаем комментарии
Disallow: */attachment             #Запрещаем вложения
Disallow: /author/*                #Запрещаем страницы авторов и пользователей
Disallow: /page/                   #Запрещаем индексировать страницы пагинации
Disallow: *page                    #Запрещаем индексировать страницы пагинации
Disallow: /*?                      #Запрещаем индексировать страницы поиска



User-agent: GoogleBot              #Только для Google
Allow: /wp-content/plugins/*.
js Allow: /wp-content/plugins/*.css Allow: /wp-content/plugins/*.jpg Allow: /wp-content/plugins/*.jpeg Allow: /wp-content/plugins/*.png Allow: /wp-includes/*.js Allow: /wp-includes/*.css Allow: /wp-content/themes/*.js Allow: /wp-content/themes/*.css Allow: /wp-content/uploads/*.jpg Allow: /wp-content/uploads/*.jpeg Allow: /wp-content/uploads/*.gif Allow: /wp-content/uploads/*.png Disallow: /xmlrpc.php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */feed Disallow: */comment Disallow: *comments Disallow: */attachment Disallow: /author/* Disallow: /page/ Disallow: *page Disallow: /*? User-agent: Yandex #Только для Яндекса Allow: /wp-content/plugins/*.js Allow: /wp-content/plugins/*.css Allow: /wp-content/plugins/*.jpg Allow: /wp-content/plugins/*.jpeg Allow: /wp-content/plugins/*.png Allow: /wp-includes/*.js Allow: /wp-includes/*.css Allow: /wp-content/themes/*.js Allow: /wp-content/themes/*.css Allow: /wp-content/uploads/*.jpg Allow: /wp-content/uploads/*.jpeg Allow: /wp-content/uploads/*.gif Allow: /wp-content/uploads/*.png Allow: /feed/dzen/ #Разрешаю Яндекс Дзен (моя ссылка) Allow: /feed/turbo/ #Разрешаю Янжекс Турбо (моя ссылка) Disallow: /xmlrpc.php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */feed Disallow: */comment Disallow: *comments Disallow: */attachment Disallow: /author/* Disallow: /page/ Disallow: *page Disallow: /*? Host: https://woohelp.
ru #Ссылка на сайт Sitemap: https://woohelp.ru/sitemap.xml #Карта сайта Sitemap: https://woohelp.ru/sitemap.xml.gz #Сжатая карта сайта

Правильный Robots.txt для WordPress. Подведём итоги

Сегодня файл robots.txt не влияет на индексацию вашего сайта. Я видел у конкурентных мне сайтов (по категории технологии) совершенно открытый robots.txt ко всем ресурсам и многие из них находятся в топе по ключевым запросам.

Благодаря правильному файлу robots.txt вы можете уменьшить количество мусора в поисковике. Представьте если бы индексировали комментарии на форуме или в статье, то был бы прямо говоря бардак.

Правильный robots.txt для wordpress | Клуб WordPress

Правильный robots.txt для wordpress указывает поисковым роботам на правила индексации вашего блога, т.е. что индексировать, а на что закрывать «глаза».Ведь именно этот файл проверяют в первую очередь поисковые машины, заходя на ваш сайт.

О том что такое robots.txt в сети можно найти очень много информации, в т.ч. как этот файл правильно прописать, но все эти статьи либо некорректные либо скопированные друг у друга.

На досуге наткнулся я на пост «Дублированный контент и параметр replytocom», перепроверил файл robots.txt, оказалось, что он требует корректировки.

В свою очередь, спешу поделиться с Вами, дорогие читатели, с правильным robots.txt для wordpress от Студии-ГОСТ.

Где находится файл robots.txt?
Файл размещается в корневой директории сайта. На примере нашего клуба:

http://clubwp.ru/robots.txt

Настройки robots.txt
1. User-Agent
Это имя поискового робота, к которому применяются нижеследующие правила вплоть до конца абзаца(не допускается пустое значение)
2. Allow и Disallow
Разрешает и, соответственно, запрещает индексацию указанных разделов блога. Allow воспринимают только Гугл и Яндекс, остальные поисковики его не видят.
Сначала нужно использовать директиву Allow, а только после нее Disallow. Также между ними не ставятся пустые строки – иначе так робот поймет, что инструкция закончилась. После директивы User-Agent также не допускаются пустые строки.
3. Host
Указывает какое зеркало сайта считать главным для избежания попадания под фильтр. Сайт доступен по нескольким адресам минимум с www и без www, и для избежания полного дублирования страниц.
4. Sitemap
Указывает роботу наличие и адрес карты сайта в формате XML

Правильный robots.txt для wordpress

User-agent: *
Allow: */uploads
Disallow: /cgi-bin
Disallow: /wp-
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*

Host: clubwp.ru
Sitemap: http://clubwp.ru/sitemap.xml
Директивы Host(главное зеркало сайта) и Sitemap(путь к карте сайта) являются межсекционными и поэтому будут учитываться роботом в любом месте в файле robots.txt. Следовательно, не надо дублировать секцию полностью, ради указания директивы Host для Яндекса.

Проверка robots.txt в инструментах Яндекс и Google
Работоспособность своего файла robots.txt вы всегда можете проверить в вебмастерских разделах поисковиков. При редактировании своего файла я всегда проверяю его на корректность.

I. Вебмастер яндекс
У Яндекса (