Файл robots txt для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

28.05.2021 alexxlab

Содержание

Правильный robots.txt для WordPress | Как сделать robots.txt

Вебмастера и маркетологи знают насколько важна индексация сайта поисковыми системами. Именно поэтому они делают все возможное, чтобы помочь поисковикам типа Google и Yandex правильно сканировать и индексировать свои сайты.
Большое количество времени и ресурсов тратятся на внутреннюю и внешнюю оптимизацию, такую как контент, ссылки, теги, оптимизация изображений и структуры сайта.
Всё это играет огромную роль в продвижении. Однако если вы забыли сделать техническую оптимизацию сайта, если вы не слышали о файлах robots.txt и sitemap.xml могут возникнуть проблемы с правильным сканированием и индексацией вашего сайта.
В этой статье я объясню как правильно настраивать и использовать файл robots.txt и мета-тег robots. Итак, начнем!

к содержанию ↑

Что такое robots.txt

Robots.txt – это текстовый файл, который используется в качестве инструкции для роботов поисковых систем (также известных как сканеры, боты или пауки), как сканировать и индексировать страницы сайта.

Простыми словами, robots.txt говорит роботам, какие страницы или файлы сайта мы хотим видеть в поиске, а какие нет.

В идеале файл robots.txt размещается в корневом каталоге вашего веб-сайта (https://site.com/robots.txt), чтобы роботы могли сразу получить доступ к его инструкциям.

Если вы используете CMS WordPress, то вы сможете увидеть ваш файл по вышеуказанному адресу, однако вы не найдете сам файл в общей папке с вашим сайтом. Это потому что WordPress автоматически создает виртуальный файл robots.txt (с параметрами по-умолчанию), если не находит данный файл в корневом каталоге сайта.

Виртуальный файл robots.txt CMS WordPress не решает всех необходимых задач, в связи с этим крайне желательно написать свой.

к содержанию ↑

Для чего нужен robots.txt

Файл robots.txt нужен, для того чтобы запретить поисковым роботам посещать определенные разделы вашего сайта, например:

страницы пагинации;
страницы с результатами поиска на сайте;
административные файлы;
служебные страницы;
ссылки с utm-метками;
данные о параметрах сортировки, фильтрации, сравнении;
страница личного кабинета и т. п.

Важно! Файл robots.txt не является обязательным к исполнению поисковыми роботами. В связи с этим, если вы хотите на 100% быть уверенными в том что какая-либо из страниц вашего сайта не появится в поисковой выдаче – используйте мета-тег robots.

Согласно Cправке Google файл robots.txt не предназначен для того, чтобы запрещать показ веб-страниц в результатах поиска Google.
Если вы не хотите чтобы какая-то страница вашего сайта появилась в поиске вставьте в <head> страницы атрибут noindex:

к содержанию ↑

Как редактировать robots txt

Редактировать файл robots.txt в CMS WordPress можно двумя способами. Добавить необходимый код в файл functions.php, или при помощи плагина.

В нашей компании мы предпочитаем второй способ.
Устанавливаем плагин Virtual Robots.txt из репозитория CMS WordPress, открываем его в админ. панеле во вкладке Настройки. В открывшееся поле плагина вносим необходимый код, жмем кнопку Save и вуаля – ваш файл robots.txt готов.

к содержанию ↑

Правильный robots.txt для CMS WordPress

Взял с сайта seogio.ru и немного подкорректировал. Вот что получилось:

User-agent: * # общие правила для роботов всех поисковых систем Disallow: /cgi-bin # служебная папка для хранения серверных скриптов Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск по сайту Disallow: *&s= # поиск по сайту Disallow: /search/ # поиск по сайту Disallow: /author/ # архив автора Disallow: /users/ # архив пользователей Disallow: */trackback # трекбеки, уведомления в комментариях о ссылке на веб-документ Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.

xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads Allow: /*/*.js # открываем файлы скриптов js Allow: /*/*.css # открываем фалы css Allow: /wp-*.png # разрешаем индексировать изображения Allow: /wp-*.jpg # разрешаем индексировать изображения Allow: /wp-*.jpeg # разрешаем индексировать изображения Allow: /wp-*.gif # разрешаем индексировать гифки Allow: /wp-admin/admin-ajax.php # разрешаем ajax # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz

User-agent: * # общие правила для роботов всех поисковых систем

Disallow: /cgi-bin # служебная папка для хранения серверных скриптов

Disallow: /? # все параметры запроса на главной

Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,

# правило можно удалить)

Disallow: *?s= # поиск по сайту

Disallow: *&s= # поиск по сайту

Disallow: /search/ # поиск по сайту

Disallow: /author/ # архив автора

Disallow: /users/ # архив пользователей

Disallow: */trackback # трекбеки, уведомления в комментариях о ссылке на веб-документ

Disallow: */feed # все фиды

Disallow: */rss # rss фид

Disallow: */embed # все встраивания

Disallow: */wlwmanifest. xml # xml-файл манифеста Windows Live Writer (если не используете,

# правило можно удалить)

Disallow: /xmlrpc.php # файл WordPress API

Disallow: *utm*= # ссылки с utm-метками

Disallow: *openstat= # ссылки с метками openstat

Allow: */uploads # открываем папку с файлами uploads

Allow: /*/*.js # открываем файлы скриптов js

Allow: /*/*.css # открываем фалы css

Allow: /wp-*.png # разрешаем индексировать изображения

Allow: /wp-*.jpg # разрешаем индексировать изображения

Allow: /wp-*.jpeg # разрешаем индексировать изображения

Allow: /wp-*.gif # разрешаем индексировать гифки

Allow: /wp-admin/admin-ajax.php # разрешаем ajax

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS

# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал

# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.

Host: www.site.ru

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent

# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap.xml.gz

к содержанию ↑

Проверка robots.txt

Если файл robots.txt настроен неправильно это может привести к множественным ошибкам в индексации сайта. Проверить правильность настройки вашего robots.txt можно с помощью бесплатного инструмента Google Robots Testing Tool

Выбираем наш сайт:

Вводим в строку путь к нашему файлу robots.txt и жмем кнопку Проверить:

В результате не должно быть ошибок и предупреждений и файл должен быть Доступен для роботов:

Если файл robots.txt настроен правильно, это значительно ускорит процесс индексации вашего сайта.

Правильный Robots.txt для WordPress

Загрузка…

Оригинал статьи в блоге Дениса Биштейнова https://seogio.ru/robots-txt-dlya-wordpress/

Ниже привожу короткий и расширенный вариант. Короткий не включает отдельные блоки для Google и Яндекса. Расширенный уже менее актуален, т.к. теперь нет принципиальных особенностей между двумя крупными поисковиками: обеим системам нужно индексировать файлы скриптов и изображений, обе не поддерживают директиву Host. Тем не менее, если в этом мире снова что-то изменится, либо вам потребуется все-таки как-то по-отдельному управлять индексацией файлов на сайте Яндексом и Гугл, сохраню в этой статье и второй вариант.

Еще раз обращаю внимание, что это базовый файл robots.txt. В каждом конкретном случае нужно смотреть реальный сайт и по-необходимости вносить корректировки. Поручайте это дело опытным специалистам!

Короткий вариант (оптимальный)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=          # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc. php       # файл WordPress API
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

Расширенный вариант (отдельные правила для Google и Яндекса)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=          # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

Disallow: /*attachment*     
Disallow: /cart             # для WooCommerce
Disallow: /checkout         # для WooCommerce
Disallow: *?filter*         # для WooCommerce
Disallow: *?add-to-cart*    # для WooCommerce
Clean-param: add-to-cart    # для WooCommerce

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest. xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает).

Ошибочные рекомендации

Использовать правила только для User-agent: *
Для многих поисковых систем не требуется индексация JS и CSS для улучшения ранжирования, кроме того, для менее значимых роботов вы можете настроить большее значение Crawl-Delay и снизить за их счет нагрузку на ваш сайт.
Прописывание Sitemap после каждого User-agent
Это делать не нужно. Один sitemap должен быть указан один раз в любом месте файла robots.txt
Закрыть папки wp-content, wp-includes, cache, plugins, themes
Это устаревшие требования. Для Яндекса и Google лучше будет их вообще не закрывать. Или закрывать «по умному», как это описано выше.
Закрывать страницы тегов и категорий
Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика
Закрывать от индексации страницы пагинации /page/
Это делать не нужно. Для таких страниц настраивается тег rel="canonical", таким образом, такие страницы тоже посещаются роботом и на них учитываются расположенные товары/статьи, а также учитывается внутренняя ссылочная масса.
Прописать Crawl-Delay
Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.
Ляпы
Некоторые правила я могу отнести только к категории «блогер не подумал». Например: Disallow: /20 — по такому правилу не только закроете все архивы, но и заодно все статьи о 20 способах или 200 советах, как сделать мир лучше.

Спорные рекомендации

Комментарии
Некоторые ребята советуют закрывать от индексирования комментарии Disallow: /comments и Disallow: */comment-*.
Открыть папку uploads только для Googlebot-Image и YandexImages
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Совет достаточно сомнительный, т.к. для ранжирования страницы необходима информация о том, какие изображения и файлы размещены на ней.

UPD: Нашёл статью Prevent robots crawling “add-to-cart” links on WooCommerce (Не давайте роботам обходить ссылки WooCommerce “добавить в корзину”) в которой наглядно показывается результат закрытия ссылок с параметром ?add-to-cart=. Но Яндекс всё равно продолжает индексировать эти ссылки. Нашёл в справке Яндекса, как можно их закрывать — через директиву Clean-param (https://yandex.ru/support/webmaster/robot-workings/clean-param.html). Поэтому добавил в robots.txt эту директиву.

Отправить

Вотсапнуть

Твитнуть

Правильный файл robots.txt для WordPress 2020: настройка

Автор Анита Арико На чтение 15 мин. Просмотров 711 Опубликовано 27 октября, 2020

Чтобы нужные страницы сайта попадали в индекс поисковых систем, важно правильно настроить файл robots.txt. Этот документ дает рекомендации поисковым роботам, какие страницы обрабатывать, а какие — нет: например, от индексации можно закрыть панель управления сайтом или страницы, которые находятся в разработке. Рассказываем, как правильно настроить robots. txt, если ваш сайт сделан на WordPress.

Что такое robots.txt и для чего он нужен?

Чтобы понять, какие страницы есть на сайте, поисковики «напускают» на него роботов: они сканируют сайт и передают перечень страниц в поисковую систему. robots.txt — это текстовый файл, в котором содержатся указания о том, какие страницы можно, а какие нельзя сканировать роботам.

Обычно на сайте есть страницы, которые не должны попадать в выдачу: например, это может быть административная панель, личные страницы пользователей или временные страницы сайта. Кроме этого, у поисковых роботов есть определенный лимит сканирования страниц (кроулинговый бюджет) — за раз они могут обработать только ограниченное их количество.

Проведем аналогию: представим сайт в виде города, а страницы в виде домов. По дорогам между домов ездят роботы и записывают информацию о каждом доме (индексируют страницы и добавляют в базу). Роботы получают ограниченное количество топлива в день — например, 10 литров на объезд города в день. Это топливо — кроулинговый бюджет, который выделяют поисковые системы на обработку сайта.

На маленьких проектах, 500-1000 страниц, кроулинговый бюджет не сказывается критично, но на интернет-магазинах, маркетплейсах, больших сервисах могут возникнут проблемы. Если они спроектированы неверно, то робот может месяцами ездить по одному кварталу (сканировать одни и те же страницы), но не заезжать в отдаленные районы. Чем больше проект, тем больший кроулинговый бюджет выделяют поисковики, но это не поможет, если дороги сделаны неудобно и вместо прямой дороги в 1 км нужно делать крюк в 15 км.

Правильный robots.txt помогает решить часть этих проблем.

Разные поисковые системы по-разному обрабатывают robots.txt: например, Google может включить в индекс даже ту страницу, которая запрещена в этом файле, если найдет ссылку на такую страницу на страницах сайта. Яндекс же относится к robots.txt как к руководству к действию — если страница запрещена для индексации в файле, она не будет включена в результаты поиска, но с момента запрета может пройти до двух недель до исключения из индекса. Таким образом, правильная настройка robots.txt в 99% случаев помогает сделать так, чтобы в индекс попадали только те страницы, которые вы хотите видеть в результатах поиска.

Кроме этого, robots.txt может содержать технические сведения о сайте: например, главное зеркало, местоположение sitemap.xml или параметры URL-адресов, передача которых не влияет на содержимое страницы.

Файл robots.txt рекомендует роботам поисковых систем, как правильно обрабатывать страницы сайта, чтобы они попали в выдачу.

Где находится файл robots.txt?

По умолчанию в WordPress нет файла robots.txt. При установке WordPress создает виртуальный файл robots.txt с таким содержимым:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Такая настройка говорит поисковым роботам следующее:

User-agent: * — для любых поисковых роботов

Disallow: /wp-admin/ — запретить обрабатывать /wp-admin/

Allow: /wp-admin/admin-ajax.php — разрешить обрабатывать элементы сайта, которые загружаются через AJAX

Этот файл не получится найти в папках WordPress — он работает, но физически его не существует. Поэтому, чтобы настроить robots.txt, сначала нужно его создать.

Robots.txt должен находиться в корневой папке (mysite.ru/robots.txt), чтобы роботы любых поисковых систем могли его найти.

Как редактировать и загружать robots.txt

Есть несколько способов создать файл robots.txt — либо сделать его вручную в текстовом редакторе и разместить в корневом каталоге (папка самого верхнего уровня на сервере), либо воспользоваться специальными плагинами для настройки файла.

Как создать robots.txt в Блокноте

Самый простой способ создать файл robots.txt — написать его в блокноте и загрузить на сервер в корневой каталог.

Лучше не использовать стандартное приложение — воспользуйтесь специальными редакторы текста, например, Notepad++ или Sublime Text, которые поддерживают сохранение файла в конкретной кодировке. Дело в том, что поисковые роботы, например, Яндекс и Google, читают только файлы в UTF-8 с определенными переносами строк — стандартный Блокнот Windows может добавлять ненужные символы или использовать неподдерживаемые переносы.

Говорят, что это давно не так, но чтобы быть уверенным на 100%, используйте специализированные приложения.

Рассмотрим создание robots.txt на примере Sublime Text. Откройте редактор и создайте новый файл. Внесите туда нужные настройки, например:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://mysite.ru/sitemap.xml

Где mysite.ru — домен вашего сайта.

После того, как вы записали настройки, выберите в меню File ⟶ Save with Encoding… ⟶ UTF-8 (или Файл ⟶ Сохранить с кодировкой… ⟶ UTF-8).

Назовите файл “robots.txt” (обязательно с маленькой буквы).

Файл готов к загрузке.

Загрузить robots.txt через FTP

Для того, чтобы загрузить созданный robots.txt на сервер через FTP, нужно для начала включить доступ через FTP в настройках хостинга.

После этого скопируйте настройки доступа по FTP: сервер, порт, IP-адрес, логин и пароль (не совпадают с логином и паролем для доступа на хостинг, будьте внимательны!).

Чтобы загрузить файл robots.txt вы можете воспользоваться специальным файловым менеджером, например, FileZilla или WinSCP, или же сделать это просто в стандартном Проводнике Windows. Введите в поле поиска “ftp://адрес_FTP_сервера”.

После этого Проводник попросит вас ввести логин и пароль.

Введите данные, которые вы получили от хостинг-провайдера на странице настроек доступа FTP. После этого в Проводнике откроются файлы и папки, расположенные на сервере. Скопируйте файл robots.txt в корневую папку. Готово.

Загрузить или создать robots.txt на хостинге

Если у вас уже есть готовый файл robots. txt, вы можете просто загрузить его на хостинг. Зайдите в файловый менеджер панели управления вашим хостингом, нажмите на кнопку «Загрузить» и следуйте инструкциям (подробности можно узнать в поддержке у вашего хостера.

Многие хостинги позволяют создавать текстовые файлы прямо в панели управления хостингом. Для этого нажмите на кнопку «Создать файл» и назовите его “robots.txt” (с маленькой буквы).

После этого откройте его во встроенном текстовом редакторе хостера. Если вам предложит выбрать кодировку для открытия файла — выбирайте UTF-8.

Добавьте нужные директивы и сохраните изменения.

Плагины для редактирования robots.txt

Гораздо проще внести нужные директивы в robots.txt с помощью специальных плагинов для редактирования прямо из панели управления WordPress. Самые популярные из них — ClearfyPro, Yoast SEO и All in One SEO Pack.

Clearfy Pro

Этот плагин отлично подходит для начинающих: даже если вы ничего не понимаете в SEO, Clearfy сам создаст правильный и валидный файл robots.txt. Кроме этого, плагин предлагает пошаговую настройку самых важных для поисковой оптимизации функций, так что на первых этапах развития сайта этого будет достаточно.

Чтобы настроить robots.txt, в панели управления WordPress перейдите в пункт Настройки ⟶ Clearfy ⟶ SEO.

Переключите «Создайте правильный robots.txt» в положение «Вкл». Clearfy отобразит правильные настройки файла robots.txt. Вы можете дополнить эти настройки, например, запретив поисковым роботам индексировать папку /wp-admin/.

После внесения настроек нажмите на кнопку «Сохранить» в верхнем правом углу.

Yoast SEO

Плагин Yoast SEO хорош тем, что в нем есть много настроек для поисковой оптимизации: он напоминает использовать ключевые слова на странице, помогает настроить шаблоны мета-тегов и предлагает использовать мета-теги Open Graph для социальных сетей.

С его помощью можно отредактировать и robots.txt.

Для этого зайдите в раздел Yoast SEO ⟶ Инструменты ⟶ Редактор файлов.

Здесь вы сможете отредактировать robots.txt и сохранить его, не заходя на хостинг. По умолчанию Yoast SEO не предлагает никаких настроек для файла, так что его придется прописать вручную.

После изменений нажмите на кнопку «Сохранить изменения в robots.txt».

All in One SEO Pack

Еще один мощный плагин для управления SEO на WordPress. Чтобы отредактировать robots.txt через All in One SEO Pack, сначала придется активировать специальный модуль. Для этого перейдите на страницу плагина в раздел «Модули» и нажмите «Активировать» на модуле «robots.txt».

После подключения модуля перейдите на его страницу. С помощью него можно разрешать или запрещать для обработки конкретные страницы и группы страниц для разных поисковых роботов, не прописывая директивы вручную.

Правильный и актуальный robots.txt в 2020 году

Для того, чтобы создать правильный файл robots.txt, нужно знать, что означает каждая из директив в файле, записать их в правильном порядке и проверить файл на валидность.

Что означают указания в файле robots.txt?

User-agent — поисковой робот

В строке User-agent указывается, для каких роботов написаны следующие за этой строкой указания. Например, если вы хотите запретить индексацию сайта для поисковых роботов Bing, но разрешить для Google и Яндекс, это будет выглядеть примерно так:

User-agent: Googlebot
Disallow:

User-agent: Yandex
Disallow:

User-agent: Bingbot
Disallow: *

Для робота Google
Запретить: ничего

Для робота Яндекс
Запретить: ничего

Для робота Bing
Запретить: все страницы

На практике необходимость разграничивать указания для разных поисковых роботов встречается довольно редко. Гораздо чаще robots.txt пишут для всех роботов сразу. Это указывается через звездочку:

User-agent: *

У поисковых систем есть и специальные роботы — например, бот YandexImages обходит изображения, чтобы выдавать их в поиске Яндекса по картинкам, а Googlebot-News собирает информацию для выдаче в Google Новостях. Полные списки ботов можно найти в справке поисковых систем — введите в поиск «поисковые роботы [название ПС]».

Disallow

Эта директива сообщает поисковым роботам, что страница или целый список страниц запрещены для обхода. Важно понимать, что указание в robots.txt не гарантирует, что страница не попадет в выдачу — если ссылка на запрещенную в файле страницу встречается на разрешенных страницах сайта, поисковик все равно может включить его в индекс.

Если вы хотите разрешить поисковым роботам обрабатывать все страницы сайта, оставьте это указание пустым.

User-agent: *
Disallow:

Если вам нужно запретить для индексации несколько страниц или директорий, указывайте каждую из них отдельно:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Disallow: /index2.html

Allow

Это указание разрешает ботам поисковиков сканировать определенные страницы. Обычно это используют, когда нужно закрыть целую директорию, но разрешить обрабатывать часть страниц.

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Большинство поисковых систем обрабатывают в первую очередь более точные правила (например, с указанием конкретных страниц), а затем — более широкие. Например:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Такой файл robots.txt укажет роботам, что не нужно сканировать все страницы из папки «catalog», кроме «best-offers. html».

Host

Указание host говорит поисковым роботам, какое из зеркал сайта является главным. Например, если сайт работает через защищенный протокол https, в robots.txt стоит это указать:

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru

Эта директива уже устарела, и сегодня ее использовать не нужно. Если она есть в вашем файле сейчас, лучше ее удалить — есть мнение, что она может негативно сказываться на продвижении.

Sitemap

Этот атрибут — еще один способ указать поисковым роботам, где находится карта сайта. Она нужна для того, чтобы поисковик смог добраться до любой страницы сайта в один клик вне зависимости от сложности его структуры.

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml

Crawl-delay

Такой параметр помогает установить задержку для обработки сайта поисковыми роботами. Это может быть полезно, если сайт расположен на слабом сервере и вы не хотите, чтобы боты перегружали его запросами: передайте в crawl-delay время, которое должно проходить между запросами роботов. Время передается в секундах.

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay: 10

На самом деле современные поисковые роботы и так делают небольшую задержку между запросами, так что прописывать это явно стоит только в том случае, если сервер очень слабый.

Clean-param

Эта настройка пригодится, чтобы скрыть из поиска страницы, в адресе которых есть параметры, не влияющие на ее содержание. Звучит сложно, так что объясняем на примере.

Допустим, на сайте есть категория «Смартфоны» и она расположена по адресу mysite.ru/catalog/smartphones.

У категории есть фильтры, которые передаются с помощью GET-запроса. Предположим, пользователь отметил в фильтре «Производитель: Apple, Samsung». Адрес страницы поменялся на

mysite.ru/catalog/smartphones/?manufacturer=apple&manufacturer=samsung,

где ?manufacturer=apple&manufacturer=samsung — параметры, которые влияют на содержимое страницы. Логично, что такие страницы можно и нужно выводить в поиске — эту страницу со включенным фильтром можно продвигать по запросу вроде «смартфоны эппл и самсунг».

А теперь представим, что пользователь перешел в категорию «Смартфоны» по ссылке, которую вы оставили во ВКонтакте, добавив к ней UTM-метки, чтобы отследить, эффективно ли работает ваша группа.

mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale

В такой ссылке параметры ?utm_source=vk&utm_medium=post&utm_campaign=sale не влияют на содержимое страницы — mysite.ru/catalog/smartphones/ и mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale будут выглядеть одинаково.

Чтобы помочь поисковым роботам понять, на основании каких параметров содержимое меняется, а какие не влияют на контент страницы, и используется настройка Clean-param.

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Clean-param: utm_campaign /
Clean-param: utm_medium /
Clean-param: utm_source /

С помощью такой директивы вы укажете поисковым роботам, что при обработке страниц для поисковой выдачи нужно удалять из ссылок такие параметры, как utm_campaign, utm_medium и utm_source.

Как проверить robots.txt

Для того, чтобы проверить валидность robots.txt, можно использовать инструменты вебмастера поисковых систем. Инструмент проверки robots. txt есть у Google в Search Console — для его использования понадобится авторизация в Google и подтверждение прав на сайт, для которого проверяется файл.

Похожий инструмент для проверки robots.txt есть и у Яндекса, и он даже удобнее, потому что не требует авторизации.

Эти приложения помогают понять, как поисковый робот видит файл: если какие-то из директив прописаны в нем неверно, инструмент проверки их проигнорирует либо предупредит о них.

Чего стоит избегать при настройке robots.txt?

Будьте внимательны: хоть robots.txt непосредственно и не влияет на то, окажется ли ваш сайт в выдаче, этот файл помогает избежать попадания в индекс тех страниц, которые должны быть скрыты от пользователей. Все, что робот не сможет интерпретировать, он проигнорирует.

Вот несколько частых ошибок, которые можно допустить при настройке.

Не указан User-Agent

Или указан после директивы, например:

Disallow: /wp-admin/
User-agent: *

Такую директиву робот прочитает так:

Disallow: /wp-admin/— так, это не мне, не читаю

User-agent: * — а это мне… Дальше ничего? Отлично, обработаю все страницы!

Любые указания к поисковым роботам должны начинаться с директивы User-agent: название_бота.

User-agent: GoogleBot
Disallow: /wp-admin/
User-agent: Yandex
Disallow: /wp-admin/

Или для всех сразу:

User-agent: *
Disallow: /wp-admin/

Несколько папок в Disallow

Если вы укажете в директиве Disallow сразу несколько директорий, неизвестно, как робот это прочтет.

User-agent: *
Disallow: /wp-admin/ /catalog/ /temp/ /user/ — “/wp-admin/catalog/temp/user/”? “/catalog/ /user”? “??????”?

По своему разумению он может обработать такую конструкцию как угодно. Чтобы этого не случилось, каждую новую директиву начинайте с нового Disallow:

User-agent: *
Disallow: /wp-admin/
Disallow: /catalog/
Disallow: /temp/
Disallow: /user/

Регистр в названии файла robots.txt

Поисковые роботы смогут прочитать только файл с названием “robots.txt”. “Robots.txt”, “ROBOTS.TXT” или “R0b0t.txt” они просто проигнорируют.

Резюме

robots.txt — файл с рекомендациями, как обрабатывать страницы сайта, для поисковых роботов.
В WordPress по умолчанию нет robots.txt, но есть виртуальный файл, который запрещает ботам сканировать страницы панели управления.
Создать robots.txt можно в блокноте и загрузить его на хостинг в корневой каталог.
Файл robots.txt должен быть создан в кодировке UTF-8.
Проще создать robots.txt с помощью плагинов для WordPress — Clearfy Pro, Yoast SEO, All in One SEO Pack или других SEO-плагинов.
С помощью robots.txt можно создать директивы для разных поисковых роботов, сообщить о главном зеркале сайта, передать адрес sitemap.xml или указать параметры URL-адресов, которые не влияют на содержимое страницы.
Проверить валидность robots.txt можно с помощью инструментов от Google и Яндекс.
Все директивы файла robots.txt, которые робот не сможет интерпретировать, он проигнорирует.

Правильный файл robots.txt для WordPress

👍 Научим создавать сайты на WordPress бесплатно за 19 уроков. Подробнее →

robots.txt является файлом, специально предназначенным для поисковых систем. В нем указывается, какие части сайта нужно выдавать в поиске, а какие нет. Важность robots.txt неоценима, так как он позволяет нацелить поисковую систему на попадание нужного контента сайта в выдаче результатов. Например, при запросе в Гугле “купить стиральную машину” конечному покупателю незачем попадать на страницу администрирования магазина. В этом случае несомненно важно будет пользователю перейти сразу в раздел “Стиральные машины”.

Как добавить robots.txt на сайт?

Если Вы используете плагин Clearfy Pro – просто выставьте галочку напротив Создать правильный robots.txt в разделе SEO на странице настроек плагина. Ничего вставлять из этой статьи Вам не нужно, все реализовано в плагине.

Добавить файл можно несколькими способами. Наиболее удобный для пользователя – по FTP. Для этого необходимо создать сам файл robots.txt. Затем, воспользовавшись одним из FTP-клиентов (например, FileZilla), загрузить robots.txt в корневую папку сайта (рядом с файлами wp-config.php, wp-settings.php) Следует отметить, что перед загрузкой файла нужно узнать у Вашей хостинг-компании IP-адрес, за которым закреплен Ваш сайт, имя FTP-пользователя и пароль.

После успешной загрузки robots.txt, перейдя по адресу http://sitename.com/robots.txt, Вы сможете посмотреть актуальное состояние файла.

Важным является тот факт, что, изменив файл robots.txt, вы не сразу заметите результаты. Для этого может понадобится от одного до нескольких месяцев (это зависит от поисковой системы). Правильным вариантом является составление корректного файла уже на стадии разработки сайта.

Пример корректного robots.txt

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Host: sitename.com

** Вместо sitename.com следует указать название Вашего сайта

Плагины для robots.txt

Для облегчения создания robots.txt в WordPress существуют специальные плагины. Некоторые из них: WordPress Robots.txt File, DL Robots.txt, Yoast SEO.

Рассмотрим создание файла robots.txt на примере одного из самых мощных SEO-плагинов Yoast SEO.

После установки и активации плагина необходимо в админ-панели выбрать пункт SEO->Консоль. На вкладке Возможности перейти в раздел Дополнительные настройки страницы, передвинуть ползунок в состояние Включено и сохранить изменения. В админ-панели появятся несколько дополнительных пунктов. Далее необходимо перейти по пункту SEO->Инструменты, где выбрать Редактор файлов. Далее на странице редактора необходимо нажать на кнопку Создать файл robots.txt, в редакторе вставить вышеописанный код и нажать Сохранить изменения в robots.txt.

Нажмите, пожалуйста, на одну из кнопок, чтобы узнать понравилась статья или нет.

Мне нравится1Не нравится1

Если Вам понравилась статья — поделитесь с друзьями

Исправление в файле Robots.txt для WordPress

Вроде уже давно поставил точку на изысканиях правильного Robots.txt для WordPress. Лишний контент убран, сайт хорошо индексируется, но вот недавно заметил одну неприятную вещь — Яндекс не загружает картинки из папки /wp-content/uploads/. С Гуглом все в порядке, он периодически добавляет новые изображения, а Яндекс, даже при ручном добавлении не хочет включать их в индекс. Для многих это возможно и не имеет значения, но на моем блоге много фотографий и отказыватся от дополнительного трафика с Яндекс.Картинок не хочется. Что ж, попробуем решить эту проблему и получить правильный файл Robots.txt для блогов на WordPress.

Приведу пример файла Robots.txt, который до недавнего времени стоял на моих сайтах:

User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/
Sitemap: http://xela.ru/sitemap.xml

На первый взгляд все грамотно, но обратите внимание на выделенные красным строки. Самое обидное, что когда разбирался в синтаксисе Robots.txt вообще, сам же и написал, что Яндекс выполняет ту директиву, которая выше. Иными словами последнюю строку робот поисковика проигнорирует и картинки будут закрыты от индексации.

Есть три пути, как решить эту проблему. Можно перенести разрешающую строку выше запрещающей. При этом мы нарушаем правила написания файла, впрочем они не являются строгими и скорее всего такой вариант пройдет. Второй вариант — сделать дополнительную секцию для Яндекса. Мне он не понравился из-за громоздкости. Вполне понятно, что чем больше файл, тем вероятнее в нем ошибка. Да и хочется универсального решения.

После некоторого раздумия я просто решил удалить строку Disallow: /wp-content/. Собственно в это папке не находится какой-то тайной информации, так пусть она будет открыта вся. Если в поисковиках вдруг всплывут ненужные файлы, то всегда можно спрятать их прописав запрещение, скажем, на папку плагинов или темы.

Мой итоговый вариант получился следующим:

User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: */?
Allow: /wp-content/uploads/
Sitemap: http://xela.ru/sitemap.xml

Внимательные увидят еще одну добавленную строку. Одно время в Яндексе вылезли странные ссылки на мой сайт следующего вида:

http://www.xela.ru/2009/12/nastrojka-servera-apache-na-vps/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+xelaru+(Xela.ru+Блог+о+фотографии,+программировании+и+seo)

Я так и не смог разобраться откуда они попадают в индекс. Судя по вот этой части «utm_source=feedburner», они появляются после перехода с RSS-подписки. При этом страница ничем не отличается от обычной со ссылкой до знака вопроса. Поэтому, чтобы в Яндексе не было ненужных дублей, я просто закрыл подобные страницы дополнительной директивой.

Файл вверху действующий, так что можете смело использовать его у себя, нужно только заменить путь к сайту в sitemap.

ТОП4 способа как создать Robots txt для WordPress

👍 Научим создавать сайты на WordPress бесплатно за 19 уроков. Подробнее →

Хотите, чтобы поисковые системы корректно индексировали страницы и разделы вашего блога? Отличное решение — сделать правильный файл Robots txt для WordPress. Разберемся как и что в нем прописать.

Для чего нужен Robots.txt?

Он предназначен для поисковых систем, их роботов и правильной индексации. Директивы файла указывают, какие разделы сайта нужно выдавать в поиске, а какие скрыть. Это позволяет нацелить поисковик на попадание нужного контента в выдаче. Например, если человек в Google введет «как отремонтировать холодильник», то ему нужно показать инструкцию по ремонту, а не страницу регистрации или информацию о сайте.

Результат поисковой выдачи после изменений robots.txt вы заметите не сразу. Может пройти от недели до нескольких месяцев. Правильно будет его создать уже во время разработки сайта.

Где лежит Robots?

Это обычный текстовый файл, который располагается в корневой папке сайта и доступен по адресу

https://site.com/robots.txt

По умолчанию Роботс не создается. Его нужно создавать вручную или использовать инструменты, которые делают это автоматически. Разберем их ниже.

Не могу найти этот файл

Если по указанной выше ссылке файл доступен онлайн, но в корне сайта его нет, то это означает, что он создан виртуально. Для поисковой системы нет разницы. Главное, чтобы его содержимое можно было получить по адресу https://site.com/robots.txt.

Из чего состоит robots.txt

Имеет 4 основных директивы:

User-agent — задает правила для поисковых роботов.
Disalow — запрещает доступ.
Allow — разрешает.
Sitemap — полный путь (URL-адрес) XML-карты.

Пример стандартного robots.txt для ВордПресс

Вариаций этого файла много. На каждом сайте он может отличаться.

Вот пример рабочего Роботс. Посмотрим что означает каждая его строка и для чего нужна.

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /license.txt Disallow: /readme.html Disallow: /trackback/ Disallow: /comments/feed/ Disallow: /*?replytocom Disallow: */feed Disallow: */rss Disallow: /author/ Disallow: /? Disallow: /*? Disallow: /?s= Disallow: *&s= Disallow: /search Disallow: *?attachment_id= Allow: /*.css Allow: /*.js Allow: /wp-content/uploads/ Allow: /wp-content/themes/ Allow: /wp-content/plugins/ Sitemap: https://site.com/sitemap_index.xml

Первая строка говорит, что ссылки сайта могут обходить все поисковые роботы.

Строки с Disallow запрещают индексировать служебные папки и файлы, кэшированные страницы, страницы авторизации и регистрации, RSS (Feed), страницы авторов, поиска и вложений.

Директивы с Allow наоборот разрешают добавлять в индекс поисковиков скрипты, стили, файлы загрузок, тем и плагинов.

Последняя строка указывает на адрес карты XML.

По этому примеру вы можете составить свой Роботс, который будет «заточен» под ваш ресурс.

Идеального содержимого этого файла для всех сайтов не существует. Его всегда нужно формировать под конкретный ресурс.

Как создать правильный robots.txt для сайта

Есть несколько способов.

Вручную

Это можно сделать обычным ручным способом. Например, в Блокноте (если локальный сайт) или через FTP-клиент (на сервере хостинга).

Также это можно сделать с помощью ВП-плагинов. Разберем лучшие.

Clearfy Pro

Виртуальный файл поможет создать премиум-плагин Clearfy Pro, который имеет целый набор функций для SEO и оптимизации сайта.

Установите и активируйте расширение.
Откройте админ-раздел Clearfy Pro.
Перейдите на вкладку SEO.
Активируйте опцию Создать правильный robots.txt.
Заполните содержимое директивами.
Нажмите кнопку Сохранить изменения.

Всегда можно отредактировать содержимое Robots. Просто измените/дополните его нужным содержимым и сохраните изменения.

Активировать промокод на 15%

Yoast SEO

Этот мощный СЕО-модуль для WP также корректно решит задачу.

Откройте SEO > Инструменты.
Кликните по Редактор файлов.
Если этого файла в корне сайта нет, нажмите Создать файл robots.txt.
Если существует, то откроется редактор, в котором можно вносить правки.
Если изменили Роботс, кликните по кнопке ниже.

All in One SEO Pack

В этом популярном для поисковой оптимизации решении тоже есть инструменты чтобы создать/отредактировать Robots.

После активации перейдите All in One SEO > Модули.
Из списка выберите одноименное название модуля и нажмите Activate.
Откройте All in One SEO > Robots.txt.
С помощью полей добавьте директивы.

Настройка для интернет-магазинов на основе WooCommerce

Для WordPress-ресурсов с использованием этого расширения есть свои директивы. Просто добавьте их к своим.

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Как оптимизировать ваш WordPress Robots.txt для SEO

Файл robots.txt является очень мощным инструментом, когда вы работаете над SEO раскруткой сайта, но с ним нужно обращаться осторожно. Это позволяет запретить поисковым системам доступ к различным файлам и папкам, но зачастую это не то, что вы хотите делать в наши дни. За прошедшие годы Google особенно сильно изменил способ сканирования интернета, поэтому часто то, что раньше было лучшей практикой несколько лет назад, больше не работает. В этом посте описывается текущая лучшая практика для вашего файла WordPress robots.txt и объясняется, почему вы должны его принять.

Недавно один из наших читателей спросил нас о том, как оптимизировать файл robots.txt для улучшения SEO. Файл Robots.txt рассказывает поисковым системам, как сканировать ваш сайт, что делает его невероятно мощным инструментом SEO. В этой статье мы покажем вам, как создать идеальный файл robots.txt для SEO.

Что такое файл robots.txt?

Robots.txt — это текстовый файл, который владельцы веб-сайтов могут создать, чтобы сообщить поисковым роботам, как сканировать и индексировать страницы на своем сайте.

Обычно он хранится в корневом каталоге, также известном как основная папка вашего сайта. Базовый формат файла robots.txt выглядит следующим образом:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]

Вы можете иметь несколько строк инструкций, чтобы разрешить или запретить определенные URL-адреса и добавить несколько файлов Sitemap. Если вы не запретите URL-адрес, то поисковые роботы предполагают, что им разрешено сканировать его.

Вот как может выглядеть файл примера robots.txt:

User-Agent: *

Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Sitemap: https://example.com/sitemap_index.xml

В приведенном выше примере robots.txt мы разрешили поисковым системам сканировать и индексировать файлы в нашей папке загрузок WordPress.

После этого мы запретили поисковым роботам сканировать и индексировать плагины и папки администратора WordPress.

Наконец, мы предоставили URL нашего сайта XML.

Вам нужен файл Robots.txt для вашего сайта WordPress?

Если у вас нет файла robots.txt, поисковые системы все равно будут сканировать и индексировать ваш сайт. Однако вы не сможете указать поисковым системам, какие страницы или папки им не следует сканировать.

Это не окажет большого влияния, когда вы впервые начинаете вести блоги, так как у вас мало контента.

Однако, поскольку ваш сайт растет и у вас стает больше контента, вы, вероятно, захотите лучше контролировать то, как ваш сайт сканируется и индексируется.

Вот почему.

Поисковые боты имеют квоту сканирования для каждого веб-сайта.

Это означает, что они сканируют определенное количество страниц во время сеанса сканирования. Если они не завершат сканирование всех страниц вашего сайта, они вернутся и возобновят сканирование в следующем сеансе.

Это может замедлить скорость индексации вашего сайта.

Это можно исправить, запретив поисковым роботам сканировать ненужные страницы, такие как страницы администратора WordPress, файлы плагинов и папки тем.

Запрещая ненужные страницы, вы сохраняете квоту на сканирование. Это помогает поисковым системам сканировать еще больше страниц на вашем сайте и индексировать их как можно быстрее.

Еще одна веская причина использовать файл robots.txt, когда вы хотите, чтобы поисковые системы не индексировали пост или страницу на вашем сайте.

Это не самый безопасный способ скрыть контент от широкой публики, но он поможет вам предотвратить его появление в результатах поиска.

Как должен выглядеть идеальный файл Robots.txt?

Многие популярные блоги используют очень простой файл robots.txt. Их содержание может варьироваться в зависимости от потребностей конкретного сайта:
User-agent: *
Disallow:
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www. example.com/page-sitemap.xml
Этот файл robots.txt позволяет всем ботам индексировать весь контент и предоставляет им ссылку на XML-карты сайта .

Для сайтов WordPress мы рекомендуем следующие правила в файле robots.txt:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http:

Это говорит поисковым роботам индексировать все изображения и файлы WordPress. Он запрещает поисковым роботам индексировать файлы плагинов WordPress, область администрирования WordPress, файл readme для WordPress и партнерские ссылки.

Добавляя файлы sitemaps в файл robots.txt, роботы Google упрощают поиск всех страниц на вашем сайте.

Теперь, когда вы знаете, как выглядит идеальный файл robots.txt, давайте посмотрим, как вы можете создать файл robots.txt в WordPress.

Как создать файл Robots.txt в WordPress?

Есть два способа создать файл robots.txt в WordPress. Вы можете выбрать метод, который лучше всего подходит для вас.

Метод 1: Редактирование файла Robots.txt с помощью Yoast SEO

Если вы используете плагин Yoast SEO для раскрутки сайта, он поставляется с генератором файлов robots.txt.

Вы можете использовать его для создания и редактирования файла robots.txt прямо из вашей админ-панели WordPress.

Просто зайдите на страницу SEO »Инструменты в вашей админке WordPress и нажмите на ссылку« Редактор файлов ».

На следующей странице, Yoast SEO-страница покажет ваш существующий файл robots.txt.

Если у вас нет файла robots.txt, Yoast SEO создаст для вас файл robots.txt.

По умолчанию генератор файлов robots.txt Yoast SEO добавляет следующие правила в ваш файл robots.txt:
User-agent: *
Disallow: /

Это важно , что вы удалите этот текст , потому что все это блокирует поисковые системы от сканирования Вашего веб — сайта.

После удаления строк по умолчанию вы можете добавить свои собственные правила robots.txt. Мы рекомендуем использовать идеальный формат robots.txt, которым мы поделились выше.

Когда вы закончите, не забудьте нажать кнопку «Сохранить файл robots.txt», чтобы сохранить изменения.

Способ 2. Редактирование файла Robots.txt вручную с использованием FTP

Для этого метода вам понадобится FTP-клиент для редактирования файла robots.txt. Просто подключитесь к своей учетной записи хостинга WordPress с помощью FTP-клиента.

Оказавшись внутри, вы сможете увидеть файл robots.txt в корневой папке вашего сайта.

Если вы его не видите, скорее всего, у вас нет файла robots.txt. В этом случае вы можете просто создать его.

Robots.txt — это простой текстовый файл, который означает, что вы можете загрузить его на свой компьютер и отредактировать его с помощью любого текстового редактора, такого как Блокнот или TextEdit.

После сохранения изменений вы можете загрузить их обратно в корневую папку вашего сайта.

Как проверить ваш файл Robots.txt?

После того, как вы создали свой файл robots.txt, всегда полезно проверить его с помощью инструмента тестирования robots.txt.

Существует множество инструментов для тестирования robots.txt, но мы рекомендуем использовать один из них в консоли поиска Google .

Просто войдите в свою учетную запись консоли поиска Google, а затем переключитесь на старый веб-сайт консоли поиска Google.

Это приведет вас к старому интерфейсу консоли поиска Google. Отсюда вам нужно запустить средство тестирования robots.txt, расположенное в меню «Сканирование».

Инструмент автоматически загрузит файл robots.txt вашего веб-сайта и выделит ошибки и предупреждения, если они были найдены.

В заключение

Целью оптимизации файла robots.txt является предотвращение сканирования поисковыми системами страниц, которые не являются общедоступными. Например, страницы в папке wp-plugins или страницы в папке администратора WordPress.

Распространенный миф среди SEO-экспертов заключается в том, что блокировка категорий, тегов и страниц WordPress повышает скорость сканирования и приводит к ускорению индексации и повышению рейтинга.

Это неправда. Это также противоречит правилам Google для веб-мастеров.

Мы рекомендуем вам следовать приведенному выше формату robots.txt, чтобы создать файл robots.txt для вашего сайта.

Мы надеемся, что эта статья помогла вам узнать, как оптимизировать файл WordPress robots.txt для SEO раскрутки сайта.

WordPress Robots txt — где разместить и как оптимизировать

Глубокое понимание WordPress robots.txt будет иметь большое значение для улучшения SEO вашего сайта. Из этого руководства вы узнаете, что такое robot.txt, и, самое главное, научитесь его использовать.

В основном, robot.txt создан для роботов, которые, например, представляют собой программное обеспечение , которое просматривает веб-страницы и индексирует их для результатов поиска .

Он позволяет владельцам веб-сайтов запрещать поисковым роботам сканировать определенные страницы или контент на своем веб-сайте. Неправильное использование robot.txt может испортить SEO вашего сайта.

Таким образом, его следует использовать с осторожностью. Но не волнуйтесь, все, что вам нужно узнать по этой теме, описано в этом руководстве.

Содержимое:

Что такое файл WordPress Robots.txt?

Обычно содержимое файла robots.txt выглядит следующим образом:

Пользовательский агент: *

Запретить: / wp-admin /

Разрешить: / wp-admin / admin-ajax.php

Disallow в этом случае сообщает поисковым роботам: «Эй, вам не разрешено сканировать папку wp-admin». И Позвольте, ну вы угадали.

Каждый день в Интернете публикуются тысячи новых веб-сайтов. Чтобы облегчить поиск этих веб-сайтов, Google и другие поисковые системы индексируют каждый веб-сайт.

Принимая во внимание огромный объем работы, Google полагается на своих поисковых ботов, чтобы выполнить свою работу быстро.

Когда поисковый робот приземляется на ваш сайт, он сначала изучает карту сайта в формате XML, чтобы узнать все содержащиеся в ней страницы.

Затем бот переходит к сканированию и индексированию не только страниц веб-сайта, но и его содержимого, включая папку JS и CSS. Если это веб-сайт WordPress, бот также просканирует папку wp-admin .

Вы точно не хотите, чтобы это произошло, и единственный способ остановить их — это дать им указание не делать этого в роботах .txt файл.

Хотя создание файла robots.txt не является обязательным, так как поисковые роботы все равно будут сканировать ваш веб-сайт, независимо от того, есть он у вас или нет, его наличие дает множество преимуществ.

Преимущества создания оптимизированного txt-файла роботов

Основная причина создания файла robots.txt — предотвратить сканирование роботами поисковых систем определенного содержания вашего веб-сайта.

Например, вы не хотите, чтобы пользователи имели доступ к теме и папке администратора, файлам плагинов и странице категорий вашего веб-сайта.

Кроме того, — оптимизированный файл robots.txt, помогающий сохранить так называемую квоту сканирования. Квота сканирования — это максимально допустимое количество страниц, которые поисковые роботы веб-сайта могут сканировать за раз.

Вы хотите, чтобы сканировались только полезные страницы, иначе ваша квота на сканирование будет потрачена впустую. Это значительно улучшит SEO вашего сайта.

В-третьих, файл robots.txt с хорошим сценарием может помочь вам минимизировать активность поисковых роботов, включая плохих ботов , вокруг вашего веб-сайта. Таким образом, скорость загрузки вашего сайта значительно улучшится.

Где находится файл Robots.txt?

По умолчанию файл robots.txt создается и сохраняется в корневом каталоге вашего веб-сайта всякий раз, когда вы устанавливаете веб-сайт WordPress. Чтобы просмотреть его, откройте свой веб-сайт в браузере и добавьте в конце «/robots.txt». Например:

https://mywebsite.com/robots.txt

Вот как выглядит наш в Fixrunner:

WordPress по умолчанию robots.txt является виртуальным, поэтому к нему нельзя получить доступ или отредактировать. Чтобы получить к нему доступ или отредактировать, вам нужно будет создать его — и есть много способов сделать это. Посмотрим на некоторые из них!

Как создать файл Robots.txt в WordPress

Создание файла robots.txt в WordPress — несложный процесс. Вы можете сделать это вручную или использовать плагины WordPress. Здесь мы увидим оба процесса, а плагин, который мы собираемся использовать, — это Yoast SEO.

Использование плагина Yoast SEO

Плагин

Yoast SEO умеет создавать роботов.txt для WordPress на лету. Конечно, когда дело доходит до SEO для WordPress, он делает гораздо больше.

Прежде всего, установите и активируйте плагин, если у вас его еще нет.

После того, как Yoast будет запущен на своем веб-сайте, перейдите в SEO >> Инструменты

Затем щелкните ссылку Редактор файлов на панели инструментов Yoast.

Вы попадете на страницу, где можете создать файл robots.txt. Нажмите кнопку Create .

Вы попадете в редактор, где сможете добавлять и редактировать правила в файле robots.txt вашего WordPress.

Добавьте новые правила в редактор файлов и сохраните изменения. Не волнуйтесь, мы скоро покажем вам правила, которые нужно добавить.

Добавление Robots.txt вручную через FTP в WordPress

Этот метод довольно прост, и его может сделать каждый. Для начала запустите Блокнот — или любой ваш любимый редактор, если это не текстовый процессор, как Microsoft Word — на вашем компьютере.

Для начала добавьте следующие правила в только что созданный файл.

Пользовательский агент: *

Запретить: / wp-admin /

Разрешить: /wp-admin/admin-ajax.php

Сохраните файл как robots.txt. Что вы хотите сделать дальше, так это загрузить его на свой веб-сайт через программу FTP, такую как FileZilla.

Прежде всего, установите соединение с вашим сайтом в FileZilla. Затем перейдите в папку public_html .В эту папку загрузите только что созданный файл robots.txt.

После завершения загрузки все готово.

Добавление правил

По сути, поисковым ботам можно дать всего две инструкции: Разрешить и Запретить. Allow предоставляет им доступ к папке, а Disallow делает наоборот.

Чтобы разрешить доступ к папке, добавьте:

Пользовательский агент: *

Разрешить: / wp-content / uploads /

Звездочка (*) сообщает поисковым роботам: «Эй, это правило применимо ко всем».

Чтобы заблокировать доступ к папке, используйте следующее правило

Запретить: / wp-content / plugins /

В этом случае мы запрещаем поисковым роботам доступ к папке плагинов.

Вам решать, какое правило наиболее применимо к вашему веб-сайту. Например, если у вас есть форум, вы можете решить заблокировать поисковые роботы на своей странице форума с помощью следующего правила:

Запретить: / forum /

Как показывает практика, чем меньше правил, тем лучше.Для выполнения работы достаточно следующего правила:

Пользовательский агент: *

Разрешить: / wp-content / uploads /

Запретить: / wp-content / plugins /

Запретить: / wp-admin /

Как проверить созданный файл Robots.

txt в консоли поиска Google

Теперь, когда вы создали файл robots.txt в WordPress, вам нужно убедиться, что он работает должным образом. И нет лучшего способа сделать это, кроме использования robots.txt тестер.

Google Search Console имеет подходящий инструмент для этой цели. Итак, обо всем по порядку, войдите в свою учетную запись Google Console. Вы всегда можете создать учетную запись, если у вас ее нет.

В консоли поиска Google прокрутите вниз и нажмите Перейти к старой версии.

Как только вы перейдете в старую версию, перейдите к Crawl >> robots.txt tester.

В текстовом редакторе вставьте правила, которые вы добавили в robots.txt, наконец, нажмите Test.

Если это подтвердится, то все готово!

Заключение

Поисковые боты временами могут быть непослушными, и единственный способ проверить их действия на вашем веб-сайте — использовать robots.txt . Даже в этом случае некоторые боты по-прежнему будут полностью игнорировать любые изложенные вами правила — вам просто нужно с этим справиться.

Хотя это правда, что WordPress автоматически создает для вас файл robots.txt при установке, создание его для себя — хорошая идея. Хорошо оптимизированный файл robots.txt не позволит поисковым роботам нанести вред вашему сайту.

Если вы нашли эту статью полезной, поделитесь ею. Для получения дополнительных руководств по WordPress следите за нашим блогом WordPress.

Дополнительные ресурсы:

Прочитайте больше полезных статей:

WordPress Robots.txt — Как создать и оптимизировать для SEO

Что такое robots.txt? Как создать файл robots.txt? Зачем нужно создавать файл robots.txt? Оптимизирует роботов сайта.txt поможет улучшить ваш поисковый рейтинг?

Мы расскажем обо всем этом и многом другом в этой подробной статье о robots.txt!

Вы когда-нибудь хотели запретить поисковым системам сканировать определенный файл? Хотите, чтобы поисковые системы не сканировали определенную папку на вашем веб-сайте?

Здесь на помощь приходит файл robots. txt. Это простой текстовый файл, который сообщает поисковым системам, где и где не сканировать при индексировании вашего веб-сайта.

Хорошая новость в том, что вам не нужен технический опыт, чтобы раскрыть всю мощь роботов.текст.

Robots.txt — это простой текстовый файл, создание которого занимает секунды. Это также один из самых простых файлов, которые можно испортить. Всего один неуместный символ, и вы испортили SEO всего своего сайта и не позволите поисковым системам получить доступ к вашему сайту.

При работе над поисковой оптимизацией веб-сайта важную роль играет файл robots.txt. Хотя он позволяет запретить поисковым системам доступ к различным файлам и папкам, часто это не лучший способ оптимизации вашего сайта.

В этой статье мы объясним, как использовать robots.txt при оптимизации вашего сайта. Мы также покажем вам, как его создать, и поделимся некоторыми плагинами, которые нам нравятся, которые могут сделать за вас тяжелую работу.

Что такое Robots.txt?

Robots.txt — это простой текстовый файл, который сообщает роботам поисковых систем, какие страницы вашего сайта сканировать. Он также сообщает роботам, какие страницы не сканировать.

Прежде чем мы углубимся в эту статью, важно понять, как работает поисковая система.

Поисковые системы выполняют три основные функции — сканирование, индексирование и ранжирование.

(Источник: Moz.com)

Поисковые системы начинают с отправки своих поисковых роботов, также называемых пауками или ботами, через Интернет. Эти боты представляют собой интеллектуальное программное обеспечение, которое перемещается по всей сети в поисках новых ссылок, страниц и веб-сайтов. Этот процесс сканирования сети называется сканирование .

Как только боты обнаруживают ваш веб-сайт, ваши страницы упорядочиваются в удобную структуру данных. Этот процесс называется индексация .

И, наконец, все сводится к рейтингу . Где поисковая система предоставляет своим пользователям самую лучшую и наиболее релевантную информацию на основе их поисковых запросов.

Как выглядит Robots.txt?

Допустим, поисковая система собирается посетить ваш сайт. Прежде чем сканировать сайт, он сначала проверит robots.txt на предмет инструкций.

Например, предположим, что робот поисковой системы собирается просканировать наш сайт WPAstra и получить доступ к нашему файлу robots.txt, доступному по адресу https://wpastra.com/robots.txt.

Пока мы обсуждаем эту тему, вы можете получить доступ к файлу robots.txt для любого веб-сайта, введя «/robots.txt» после имени домена.

ОК. Возвращение на правильный путь.

Это типичный формат файла robots.txt.

И прежде чем вы подумаете, что это слишком технический вопрос, есть хорошая новость: это все, что касается файла robots.txt. Ну, почти.

Давайте разберем каждый элемент, упомянутый в файле.

Первый — User-agent: * .

Звездочка после User-agent указывает, что файл применяется ко всем роботам поисковых систем, которые посещают сайт.

У каждой поисковой системы есть собственный пользовательский агент, который просматривает Интернет. Например, Google использует Googlebot для индексации содержания вашего веб-сайта в поисковой системе Google.

Некоторые из других пользовательских агентов, используемых популярными поисковыми системами:

Google: Googlebot
Googlebot News: Googlebot-News
Googlebot Изображения: Googlebot-Image
Googlebot Video: Googlebot-Video
Bing: Bingbot
Yahoo: Slurp Bot
Duck30Duckider:
Duck30Duckider
Яндекс: ЯндексБот
Exalead: ExaBot
Amazon’s Alexa: ia_archiver

Таких юзер-агентов сотни.

Вы можете установить собственные инструкции для каждого пользовательского агента. Например, если вы хотите установить конкретные инструкции для робота Googlebot, то первая строка вашего файла robots. txt будет иметь вид

Пользовательский агент: Googlebot

Вы назначаете директивы всем пользовательским агентам, используя звездочку (*) рядом с User-agent.

Допустим, вы хотите заблокировать сканирование вашего сайта всеми ботами, кроме робота Google. Ваш файл robots.txt будет иметь следующий вид:

  Агент пользователя: *
Запретить: /

Пользовательский агент: Googlebot
Разрешить: /

Косая черта (/) после Disallow указывает боту не индексировать никакие страницы на сайте.И хотя вы назначили директиву, которая будет применяться ко всем ботам поисковых систем, вы также явно разрешили роботу Googlebot индексировать ваш веб-сайт, добавив « Allow: / ».

Точно так же вы можете добавить директивы для любого количества пользовательских агентов.

Напомним, что вернемся к нашему примеру с Astra robots.txt, т. Е.

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php

Для всех роботов поисковых систем задана директива: ничего не сканировать в папке « / wp-admin / », но следовать « admin-ajax».php ’в той же папке.

Просто, правда?

Что такое краулинговый бюджет?

Добавляя косую черту после Disallow , вы запрещаете роботу посещать какие-либо страницы сайта.

Итак, следующий очевидный вопрос: зачем кому-то мешать роботам сканировать и индексировать ваш сайт? В конце концов, когда вы работаете над поисковой оптимизацией сайта, вы хотите, чтобы поисковые системы сканировали ваш сайт, чтобы помочь вам в рейтинге.

Именно поэтому вам следует подумать об оптимизации ваших роботов.txt файл.

Есть идеи, сколько страниц у вас на сайте? От реальных страниц до тестовых страниц, страниц с дублированным контентом, страниц благодарности и т. Д. Мы полагаем, что много.

Когда бот сканирует ваш сайт, он просканирует каждую страницу. А если у вас несколько страниц, боту поисковой системы потребуется время, чтобы их просканировать.

(Источник: Seo Hacker)

Знаете ли вы, что это может негативно повлиять на рейтинг вашего сайта?

И это связано с бюджетом сканирования бота поисковой системы .’

ОК. Что такое краулинговый бюджет?

Бюджет сканирования — это количество URL-адресов, которые поисковый бот может сканировать за сеанс. Каждому сайту будет выделен определенный бюджет сканирования. И вам нужно убедиться, что краулинговый бюджет расходуется наилучшим образом для вашего сайта.

Если на вашем веб-сайте несколько страниц, вам определенно нужно, чтобы бот сначала сканировал ваши самые ценные страницы. Таким образом, необходимо явно указать это в вашем файле robots.txt.

Ознакомьтесь с ресурсами, доступными в Google, чтобы узнать, что означает краулинговый бюджет для робота Googlebot.

Как создать файл Robots.txt в WordPress?

Теперь, когда мы рассмотрели, что такое файл robots.txt и насколько он важен, давайте создадим его в WordPress.

У вас есть два способа создать файл robots.txt в WordPress. Один использует плагин WordPress, а другой — вручную загружает файл в корневую папку вашего сайта.

Метод 1: Создание роботов.txt с использованием плагина Yoast SEO

Чтобы помочь вам оптимизировать свой сайт WordPress, вы можете использовать плагины SEO. Большинство этих плагинов имеют собственный генератор файлов robots.txt.

В этом разделе мы создадим его с помощью плагина Yoast SEO. Используя плагин, вы можете легко создать файл robots.txt из своей панели управления WordPress.

Шаг 1. Установите плагин

Зайдите в Плагины> Добавить новый . Затем найдите, установите и активируйте плагин Yoast SEO, если у вас его еще нет.

Шаг 2. Создайте файл robots.txt

После активации плагина перейдите в Yoast SEO> Инструменты и нажмите Редактор файлов .

Поскольку мы создаем файл впервые, нажмите Создать файл robots.txt .

Вы заметите файл, созданный с некоторыми директивами по умолчанию.

По умолчанию генератор файлов robots.txt Yoast SEO добавляет следующие директивы:

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: / wp-admin / admin-ajax.php

При желании вы можете добавить другие директивы в robots.txt. Когда вы закончите, нажмите Сохранить изменения в robots.txt .

Вперед, введите свое доменное имя, а затем « /robots.txt ». Если вы обнаружите, что в браузере отображаются директивы по умолчанию, как показано на изображении ниже, вы успешно создали файл robots.txt.

Мы также рекомендуем добавить URL-адрес карты сайта в файл robots.txt.

Например, если URL карты сайта вашего веб-сайта https: // yourdomain.ru / sitemap.xml, а затем рассмотрите возможность включения файла Sitemap : https://yourdomain.com/sitemap.xml в файл robots.txt.

Другой пример: вы хотите создать директиву, запрещающую боту сканировать все изображения на вашем веб-сайте. Допустим, мы хотим ограничить это только роботом GoogleBot.

В таком случае наш robots.txt будет иметь следующий вид:

  Пользовательский агент: Googlebot
Запретить: / uploads /

Пользовательский агент: *
Разрешить: / uploads /

И на всякий случай, если вам интересно, как узнать имя папки с изображениями, просто щелкните правой кнопкой мыши любое изображение на своем веб-сайте, выберите «Открыть в новой вкладке» и запишите URL-адрес в браузере.Вуаля!

Метод 2. Создание файла Robots.txt вручную с помощью FTP

Следующий метод — создать файл robots.txt на вашем локальном компьютере и загрузить его в корневую папку вашего сайта WordPress.

Вам также потребуется доступ к вашему хостингу WordPress с помощью FTP-клиента, такого как Filezilla. Учетные данные, необходимые для входа, будут доступны в панели управления хостингом, если у вас их еще нет.

Помните, что файл robots.txt должен быть загружен в корневую папку вашего веб-сайта.То есть его не должно быть ни в каком подкаталоге.

Итак, после входа в систему с помощью FTP-клиента вы сможете увидеть, существует ли файл robots.txt в корневой папке вашего веб-сайта.

Если файл существует, просто щелкните файл правой кнопкой мыши и выберите параметр редактирования.

Внесите изменения и нажмите «Сохранить».

Если файл не существует, вам нужно его создать. Вы можете создать его с помощью простого текстового редактора, такого как Блокнот, и добавить директивы в файл.

Например, включите следующие директивы,

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php

… и сохраните файл как robots.txt.

Теперь, используя свой FTP-клиент, нажмите « File Upload » и загрузите файл в корневую папку веб-сайта.

Чтобы проверить, успешно ли был загружен ваш файл, введите свое доменное имя, а затем «/robots.txt».

Вот как вы загружаете файл robots.txt вручную на свой сайт WordPress!

Плюсы и минусы Robots.txt

Плюсы файла robots.txt

Он помогает оптимизировать бюджеты сканирования поисковых систем, говоря им не тратить время на страницы, которые вы не хотите индексировать. Это помогает гарантировать, что поисковые системы будут сканировать наиболее важные для вас страницы.
Это помогает оптимизировать ваш веб-сервер, блокируя ботов, тратящих ресурсы впустую.
Это помогает скрыть страницы с благодарностью, целевые страницы, страницы входа и многое другое, которое не нужно индексировать поисковыми системами.

Минусы файла robots.txt

Теперь вы знаете, как получить доступ к файлу robots.txt для любого веб-сайта. Все очень просто. Просто введите доменное имя и затем «/robots.txt». Однако это также представляет определенный риск. Файл robots.txt может содержать URL-адреса некоторых ваших внутренних страниц, которые вы не хотели бы индексировать поисковыми системами.
Например, может существовать страница входа, которую вы не хотите индексировать. Однако упоминание об этом в файле robots.txt позволяет злоумышленникам получить доступ к странице. То же самое происходит, если вы пытаетесь скрыть некоторые личные данные.
Хотя создать файл robots.txt довольно просто, если вы ошибетесь хотя бы с одним символом, это испортит все ваши усилия по поисковой оптимизации.

Куда поместить файл Robots.txt

Мы полагаем, что теперь вы хорошо знаете, куда нужно добавить файл robots.txt.

Файл robots.txt всегда должен находиться в корне вашего веб-сайта. Если ваш домен — yourdomain.com, то URL-адрес вашего файла robots.txt будет https://yourdomain.com/robots.txt.

Помимо включения файла robots.txt в корневой каталог, следует придерживаться следующих рекомендаций:

Обязательно назовите файл robots.txt
Имя чувствительно к регистру. Так что сделайте это правильно, или это не сработает
Каждая директива должна быть на новой строке
Включите символ «$» для обозначения конца URL-адреса
Используйте отдельные пользовательские агенты только один раз
Используйте комментарии для объясните своих роботов.txt людям, начав строку с хеша (#)

Как проверить свой файл Robots.txt

Теперь, когда вы создали файл robots.txt, пора протестировать его с помощью тестера robots.txt.

Инструмент, который мы рекомендуем, находится в консоли поиска Google.

Чтобы получить доступ к этому инструменту, нажмите Открыть тестер robots.txt.

Мы предполагаем, что ваш веб-сайт добавлен в Google Search Console. Если это не так, нажмите « Добавить свойство сейчас » и выполните простые шаги, чтобы добавить свой веб-сайт в Google Search Console.

После этого ваш веб-сайт появится в раскрывающемся списке под заголовком « Пожалуйста, выберите свойство ».

Выберите веб-сайт, и инструмент автоматически загрузит файл robots.txt с вашего веб-сайта и выделит ошибки и предупреждения, если таковые имеются.

Robots.txt Часто задаваемые вопросы

Хотя в этой статье мы рассмотрели большинство часто задаваемых вопросов, есть еще один часто задаваемый вопрос.

Вам нужен файл Robots.txt для вашего сайта WordPress?

Да, вам нужен робот.txt на вашем сайте WordPress. Независимо от того, есть ли у вас файл robots.txt или нет, поисковые системы все равно будут сканировать и индексировать ваш сайт. Но, рассмотрев, что такое robots.txt, как он работает и сколько обходится бюджету, почему бы вам не включить его?

Файл robots.txt сообщает поисковым системам, что сканировать и, что более важно, что не сканировать.

Основная причина для включения файла robots.txt — учет негативных последствий краулингового бюджета.

Как указывалось ранее, у каждого веб-сайта есть определенный бюджет сканирования.Это сводится к количеству страниц, которые бот просматривает за сеанс. Если бот не завершит сканирование всех страниц вашего сайта во время сеанса, он вернется и возобновит сканирование в следующем сеансе.

И это замедляет индексирование вашего сайта.

Быстрое решение этой проблемы — запретить поисковым роботам сканировать ненужные страницы, мультимедийные файлы, плагины, папки тем и т. Д., Тем самым сэкономив квоту сканирования.

Последние мысли

При работе над поисковой оптимизацией вашего веб-сайта мы уделяем большое внимание оптимизации содержания, поиску правильных ключевых слов, работе с обратными ссылками, созданию карты сайта.xml, среди прочих факторов. Элемент SEO, на который некоторые веб-мастера обращают меньше внимания, — это файл robots.txt.

Файл robots.txt может не иметь большого значения, когда вы начинаете работу со своим веб-сайтом. Но по мере роста вашего веб-сайта и увеличения количества страниц он приносит большие дивиденды, если мы начнем следовать лучшим практикам в отношении robots.txt.

Мы надеемся, что эта статья помогла вам получить полезную информацию о том, что такое robots.txt и как его создать на своем веб-сайте.Итак, какие директивы вы установили в своем файле robots.txt?

Плагин

WordPress Robots.txt — легко редактировать файл Robots.txt

Что такое Robots.txt?

Robots.txt — это текстовый файл, содержащий инструкции, также известные как директивы, для роботов поисковых систем. Владельцы веб-сайтов используют его, чтобы предотвратить сканирование поисковыми системами ненужных страниц на своем веб-сайте. Он также дает советы поисковым системам о том, как лучше всего перемещаться и индексировать ваш сайт.

Вот типичный WordPress robots.txt, пример:

  Агент пользователя: *
Разрешить: /wp-admin/admin-ajax.php
Запретить: / wp-admin /
Запретить: / wp-content / uploads / wpforms /
Запретить: /xmlrpc.php
Карта сайта: https://aioseo.com/video-sitemap.xml
Карта сайта: https://aioseo.com/sitemap.xml
Карта сайта: https://aioseo.com/sitemap.rss

Прежде чем обсуждать файл robots.txt в приведенном выше примере, давайте взглянем на основные компоненты файла robots.txt.

User-agent : User-agent — это то, что поисковые роботы используют для идентификации себя.Вы можете использовать эту директиву для нацеливания на определенных ботов поисковых систем. Например, если вы хотите, чтобы Google сканировал только ваш веб-сайт, вам следует добавить googlebot вместо *. * Означает, что все поисковые системы, такие как Google, Bing, Yahoo и другие, могут сканировать ваш сайт.
Разрешить : это означает, что поисковой системе разрешено сканировать этот конкретный раздел веб-сайта.
Disallow : Используя эту директиву, вы можете запретить поисковым системам получать доступ к определенным страницам или файлам на вашем веб-сайте.

Возвращаясь к примеру robots.txt, мы разрешили всем поисковым системам сканировать наш веб-сайт с помощью директивы user-agent: *. Мы также разрешали и запрещали URL-адреса в зависимости от того, как мы хотим, чтобы Google сканировал наш веб-сайт.

Используя файл robots.txt, вы также можете отправить несколько карт сайта. В нашем файле robots.txt мы отправили отдельную карту сайта для видео, которая есть на нашем веб-сайте. Это упрощает поисковым системам поиск, сканирование и индексирование видео на нашем веб-сайте.

Карта сайта — это навигационная карта вашего сайта. Он сообщает поисковым системам, сколько страниц у вас на сайте. С помощью AIOSEO’s WordPress Sitemap Generator вы можете легко создавать и отправлять свои карты сайта.

Многие люди также спрашивают: «Где находится robots.txt в WordPress?» на случай, если они захотят внести правки.

Местоположение robots.txt WordPress находится в корневом каталоге вашего веб-сайта WordPress. Вы можете просмотреть файл, подключившись к своему сайту с помощью FTP-клиента или cPanel.

Но вам не придется заходить так далеко, если вы используете AIOSEO. Он позволяет редактировать и просматривать файл robots.txt из панели управления WordPress. Нет необходимости в отдельном плагине robots.txt для WordPress. Мы обсудим это более подробно позже в этом руководстве.

Вы также можете просмотреть его в Интернете, введя имя своего домена и текст «robots.txt». Например, https://www.example.com/robots.txt.

Теперь, когда вы знаете, что такое файл robots.txt и как он выглядит, давайте поговорим о том, почему он важен для вашего веб-сайта.

Зачем вам нужен файл Robots.txt для вашего сайта WordPress?

Robots.txt позволяет управлять сканированием и индексированием вашего сайта поисковыми системами. Без файла robots.txt поисковые системы будут сканировать весь ваш веб-сайт, даже не важные страницы.

Если вы не запретите поисковым роботам сканировать ненужные страницы, они израсходуют весь ваш бюджет сканирования и могут не сканировать страницы, которые вы хотите, чтобы они сканировали.

Бюджет сканирования — это уровень внимания, которое поисковая система, такая как Google, уделяет вашему сайту.Это зависит от того, как часто поисковые системы любят сканировать ваш сайт и как часто ваш сайт может сканироваться.

Если вы тратите впустую свой краулинговый бюджет, Google и другие поисковые системы не смогут эффективно сканировать ваш сайт, и это может снизить его производительность.

Каждый веб-сайт имеет ограниченный краулинговый бюджет. Боты поисковых систем сканируют только определенное количество страниц во время сеанса сканирования.

Если бот не просканирует весь ваш веб-сайт в первом сеансе сканирования, он вернется и просканирует оставшиеся страницы в следующем сеансе.

В зависимости от вашего веб-сайта следующие сеансы сканирования могут занять несколько дней. Это может замедлить индексацию вашего сайта, и ваши важные страницы не будут сканироваться и индексироваться поисковыми системами. Это может привести к огромным потерям трафика и бизнеса.

Вы можете быстро исправить это, запретив ненужные страницы вашего веб-сайта, такие как страница администратора WordPress, файлы плагинов и папка тем. Это поможет сэкономить краулинговый бюджет и повысить коэффициент индексации.

Теперь перейдем к той части, где мы расскажем, как просматривать, редактировать, создавать и отправлять роботов.txt с помощью AIOSEO.

Как создать файл Robots.txt для вашего сайта WordPress?

All in One SEO (AIOSEO) позволяет очень легко создавать и редактировать файл robots.txt в WordPress.

Все, что вам нужно сделать, это зайти в панель управления WordPress и выбрать All in One SEO »Tools.

Затем вы попадете на страницу редактора Robots.txt. Отсюда вы можете легко добавить или отредактировать файл robots.txt, используя форму.

С AIOSEO вам не нужно беспокоиться о форматировании роботов.txt файл. Все, что вам нужно сделать, это добавить директивы в поля, а AIOSEO сделает все остальное.

После добавления директив нажмите «Сохранить изменения», чтобы завершить настройку.

Теперь, когда вы создали файл robots.txt, вам нужно протестировать его, чтобы увидеть, есть ли в нем ошибки.

Проверьте свой файл WordPress Robots.txt

Чтобы проверить файл robots.txt, просто перейдите к инструменту тестирования robots.txt и войдите в свою учетную запись консоли поиска Google.

Затем введите «robots.txt »в поле URL и нажмите« Тест ».

Если файл robots.txt проверен, вы получите сообщение Разрешено. В противном случае вы увидите, что ошибки и предупреждения будут выделены в поле.

И готово! Вы успешно создали и проверили файл robots.txt в WordPress.

Мы надеемся, что это руководство помогло вам научиться создавать оптимизированный файл robots.txt для вашего веб-сайта WordPress с помощью AIOSEO.

Показать меньше

Что такое роботы.txt файл? (2020)

Название robots.txt звучит немного странно, особенно если вы новичок в SEO. К счастью, это звучит намного страннее, чем есть на самом деле. Владельцы веб-сайтов, такие как вы, используют файл robots.txt , чтобы давать веб-роботам инструкции по их сайту . В частности, он сообщает им, к каким частям вашего сайта вы не хотите, чтобы к ним обращались жуткие сканеры поисковых систем.

Первое, на что смотрит паук поисковой системы, когда он посещает страницу, — это роботы.txt файл.

Не обращайте внимания на сумасшедшие глаза, у этого робота все хорошо! Анимация Мэтта Барнса

Почему важен файл robots.txt?

Обычно он используется, чтобы блокировать поисковые системы, такие как Google, от «просмотра» определенных страниц на вашем веб-сайте — либо потому, что вы не хотите, чтобы ваш сервер был перегружен сканированием Google, либо чтобы он сканировал неважные или дублированные страницы сайт.

Вы могли подумать, что это также хороший способ скрыть страницы или информацию, которую вы хотите сохранить конфиденциальной и не хотите появляться в Google. Это не то, для чего предназначен файл robots.txt, поскольку эти страницы, которые вы хотите скрыть, могут легко появиться при обходе инструкций robots.txt, если, например, другая страница на вашем сайте ссылается на страницу, которую вы не хотите отображать. .

Хотя наличие этого файла важно, ваш сайт по-прежнему будет работать без него и, как правило, будет сканироваться и индексироваться. Это важная причина, по которой он имеет отношение к SEO вашего сайта, потому что неправильное использование может повлиять на рейтинг вашего сайта .

Что такое неправильное использование?

Пустой робот.txt
Использование неправильного синтаксиса
Ваш robots.txt конфликтует с файлом sitemap.xml (ваш файл robots.txt противоречит вашей карте сайта — если что-то есть в вашей карте сайта, это не должно блокироваться файлом robots) .
Использование его для блокировки частных или конфиденциальных страниц вместо их защиты паролем
Случайное запрещение всего
Размер вашего файла robots.txt превышает предел в 500 КБ
Не сохраняется файл robots в корневом каталоге

Иллюстрация Юстас Галабурда

Как выглядит задача на marketgoo?

В рамках marketgoo задача относится к категории «Обзор вашего сайта».Задача проста, потому что, если мы обнаружим на вашем сайте файл robots.txt, мы просто убедимся, что вы знаете, для чего он нужен и что его нужно правильно настроить.

robots.txt на Weebly

Если вы используете Weebly, ваш веб-сайт автоматически включает файл robots.txt, который вы можете использовать для управления индексированием поисковой системой отдельных страниц или всего сайта. Вы можете просмотреть свой файл robots, перейдя на сайт www.yourdomain.com/robots.txt или yourdomain.weebly.com/robots.txt (используя имя вашего веб-сайта вместо yourdomain).

По умолчанию поисковые системы разрешают индексировать весь ваш сайт. Если вы хотите предотвратить индексирование всего вашего веб-сайта поисковыми системами, сделайте следующее:

Перейдите на вкладку Настройки в редакторе и щелкните раздел SEO
Прокрутите вниз до « Hide site» из поисковых систем ”переключить
Переключить на На позиции
Повторно опубликовать свой сайт

Если вы хотите защитить только некоторые из ваших страниц от индексации, сделайте следующее:

Перейти в меню Настройки SEO
Убедитесь, что переключатель «Скрыть сайт от поисковых систем» установлен на Выкл. .
Перейдите на вкладку Pages и щелкните страницу, которую хотите скрыть
Нажмите кнопку SEO Settings
Установите флажок, чтобы скрыть страницу от поисковых систем
Щелкните стрелку назад вверху, чтобы сохранить изменения

Вы можете изменять это столько раз, сколько хотите, но помните, что поисковым системам требуется время, чтобы понять это и отразить в своих результатах.

Есть некоторые вещи, которые были заблокированы и которые нельзя изменить на Weebly, например каталог, в котором хранятся загруженные файлы для цифровых продуктов.Это не окажет негативного влияния на ваш сайт или его рейтинг в поисковых системах.

Примечание. Google Search Console может выдать предупреждение о «серьезных проблемах со здоровьем», связанных с файлом robots вашего сайта Weebly. Это связано с заблокированными файлами, описанными выше, поэтому не беспокойтесь.

robots.txt на Wix

Если вы используете Wix, вы должны знать, что Wix автоматически генерирует файл robots для каждого сайта, созданного на его платформе.Вы можете просмотреть этот файл, добавив ‘/robots. txt’ к вашему корневому домену ( www.domain.com/robots.txt ) (заменив domain.com на ваше фактическое доменное имя). Если вы увидите, что находится в вашем файле robots.txt, вы поймете, что уже могут быть определенные инструкции по предотвращению сканирования областей, которые не , а способствуют поисковой оптимизации вашего сайта.

Возможно отредактировать файл robots.txt на вашем сайте Wix, но, как Wix отмечает в своих инструкциях, это дополнительная функция, и вы должны действовать с осторожностью.

Чтобы отредактировать его:

Перейдите на панель управления вашего сайта.
Щелкните Marketing & SEO.
Нажмите Инструменты SEO .
Щелкните Редактор файлов Robots.txt .
Щелкните Просмотреть файл .
Добавьте информацию о файле robots.txt, написав директивы в поле под текстом « Это ваш текущий файл:»

Не забудьте сохранить изменения и прочитать документацию службы поддержки Wix относительно редактирования файла роботов.

Если вы не хотите, чтобы определенная страница вашего сайта отображалась в результатах поиска, вы можете скрыть ее в разделе Page Editor :

Щелкните меню Menus & Pages на верхней левой панели редактора
Щелкните страницу, которую хотите скрыть
Щелкните значок […]
Щелкните SEO (Google)
Щелкните переключатель рядом с Показать эту страницу из результатов поиска . Это означает, что люди не могут найти вашу страницу при поиске ключевых слов и фраз в поисковых системах.
Не забывайте сохранять и публиковать всякий раз, когда вы вносите какие-либо изменения.

Примечание. Если вы используете WIX ADI для создания своего сайта, для вас есть несколько другие инструкции.

Если вы выберете защиту страницы паролем, это также предотвратит сканирование и индексирование этой страницы поисковыми системами. Это означает, что страницы, защищенные паролем, не отображаются в результатах поиска.

Наконец, следуйте этим инструкциям, чтобы скрыть весь свой сайт от поисковых систем.

robots.txt на Squarespace

Это еще одна платформа, на которой автоматически генерирует файл роботов для каждого сайта. Squarespace использует файл robots.txt, чтобы сообщить поисковым системам, что часть URL-адреса сайта ограничена. Они делают это, потому что эти страницы предназначены только для внутреннего использования или потому, что они представляют собой URL-адреса, которые показывают дублированный контент (что может негативно повлиять на ваше SEO). Если вы используете такой инструмент, как Google Search Console, он покажет вам предупреждение об этих ограничениях, которые Squarespace установила в файле.

Squarespace показывает нам в качестве примера, что они просят Google не сканировать URL-адреса, такие как / config / , которая является вашей страницей входа администратора, или / api / , которая является файлом cookie отслеживания Google Analytics. Это имеет смысл.

Кроме того, если вы видите множество запретов в вашем файле robots.txt, это тоже нормальное явление для Squarespace, чтобы предотвратить дублирование контента (которое может появляться на этих страницах):

Чтобы скрыть контент на вашем На сайте Squarespace вы можете добавить тег noindex с помощью внедрения кода или установить флажок Скрыть эту страницу из результатов поиска на вкладке SEO в настройках страницы.Смотрите видео с этими инструкциями здесь.

Если вы получаете предупреждения от Google Search Console, например, что страница «проиндексирована, но заблокирована файлом robots.txt», вы можете проверить это удобное руководство, чтобы понять, что означают некоторые из этих ошибок, и следует ли их игнорировать или принимать меры.

robots.txt в WordPress

Если вы используете WordPress, файл robots. txt обычно находится в корневой папке вашего сайта. Вы можете проверить это, добавив «/robots.txt» в свой корневой домен ( www.domain.com/robots.txt — замена domain.com на ваше реальное доменное имя).

Вам потребуется подключиться к своему сайту с помощью FTP-клиента или файлового менеджера cPanel для просмотра и редактирования файла. Вы можете открыть его с помощью обычного текстового редактора, такого как Блокнот или TextEdit.

Если у вас нет файла robots.txt в корневом каталоге вашего сайта, вы можете создать его:

Создайте новый текстовый файл на своем компьютере и сохраните его как robots.txt
Загрузите его в корневую папку вашего сайта

Этот процесс может быть немного громоздким, и есть еще один вариант — вместо этого вы можете создать и отредактировать файл robots с помощью такого плагина, как Robots.txt Editor.

Если вы используете плагины Yoast или All in One SEO, вы можете сгенерировать и / или отредактировать файл robots.txt прямо из плагина.

Вы можете использовать тестер robots.txt в Google Search Console, чтобы убедиться в отсутствии ошибок и проверить, какие URL-адреса с вашего сайта заблокированы.

robots.txt на Shopify

Shopify автоматически создает файл robots.txt для вашего сайта.
Невозможно редактировать роботов.txt для магазинов Shopify.
Если вы хотите скрыть определенные страницы от индексации Google, вам необходимо настроить раздел в файле макета theme.liquid вашего магазина. Для этого следуйте этим инструкциям.
Иногда в Google Search Console появляется предупреждение , в котором сообщается, что некоторые элементы заблокированы. Shopify блокирует индексирование определенных страниц, таких как ваша фактическая страница корзины или отфильтрованная коллекция, в URL-адресе которой есть +.Итак, если вы видите что-то вроде следующего, это нормально:
Disallow: / collections / +
Disallow: / collections /% 2B

Robots. txt Best Practices
If вы хотите запретить поисковым роботам доступ к любому частному контенту на вашем веб-сайте, тогда вам нужно защитить паролем область, где они хранятся. Robots.txt — это , руководство для веб-роботов, поэтому технически они не обязаны следовать вашим указаниям.
Google Search Console предлагает бесплатный тестер роботов, который сканирует и анализирует ваш файл. Вы можете протестировать свой файл там, чтобы убедиться, что он правильно настроен. Войдите в систему и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете ввести URL-адрес, и вы увидите зеленый Разрешено , если все в порядке.
Вы можете использовать robots.txt для блокировки таких файлов, как неважные файлы изображений или стилей. Но если их отсутствие затрудняет понимание вашей страницы для роботов поисковых систем, не блокируйте их, иначе Google не сможет полностью понять ваш сайт так, как вы этого хотите.
Всем блогерам, владельцам сайтов и веб-мастерам следует соблюдать осторожность при редактировании файла robots; если вы не уверены, сделайте ошибку в осторожности!
Если вы хотите углубиться в детали, добавьте в закладки эти руководства из ContentKing и Search Engine Journal.
Я просто хочу знать, есть ли на моем сайте файл robots.txt или нет!
Просто зайдите в браузер и добавьте «/robots.txt» в конец своего доменного имени! Итак, если ваш сайт — myapparelsite.com, то, что вы вводите в браузере, будет www.myapparelsite.com/robots.txt, и вы увидите что-то похожее на это (этот пример для сайта WordPress):
Robots.txt Tester
Если вы пользователь marketgoo, marketgoo будет сообщит вам автоматически, обнаруживает он это или нет. Вы можете дополнительно протестировать его в Google Search Console.
Генератор Robots.txt
Это бесплатный инструмент для самостоятельного создания файла robots.txt.
Иллюстрация Зака Рощевского
Как использовать роботов WordPress.txt для улучшения SEO
Файл robots.txt — это руководство для поисковых систем, которое поможет им правильно проиндексировать ваш сайт. Хотя поисковая система по-прежнему будет сканировать ваши страницы, этот файл помогает упростить этот процесс. Поскольку он играет роль в том, как движки получают доступ к вашему сайту, полезно настроить WordPress и файл robots.txt для улучшения SEO.
Поисковые системы будут использовать файл robots.txt для поиска карты сайта, если он еще не указан. Например, здесь будет искать бот движка, если у вас нет карты сайта в инструментах консоли сайта Google или Bing.По сути, этот файл поможет системам найти именно то, что они ищут, что сэкономит немного времени на индексации вашего сайта.
Этот файл также помогает увести движки от определенного контента. По умолчанию WordPress уже имеет статус nofollow и noindex для некоторых элементов, таких как панель администратора. Однако файл robots.txt также можно использовать для предотвращения индексации других папок и содержимого.
Сегодня я собираюсь продемонстрировать, как вы можете отредактировать этот файл и заставить его работать на вас, чтобы улучшить SEO сайта.Это очень простой процесс, который под силу любому, независимо от уровня квалификации.
Шаг 1. Создание файла robots.txt в WordPress
Некоторые плагины автоматически создают файл robots.txt при активации. Однако в некоторых случаях вам придется создать его вручную. В этом примере я использую FileZilla для доступа к корневой папке WordPress. Это простая в использовании программа, которая обладает широкими функциональными возможностями, когда дело доходит до управления веб-сайтом.
Для создания роботов.txt:
Шаг 1. Откройте FileZilla и подключитесь к корневой папке вашего веб-сайта.
ПРИМЕЧАНИЕ : Ознакомьтесь с нашим полным руководством по использованию FileZilla, чтобы узнать больше о том, как работает программа.
Шаг 2: В правом нижнем углу окна FileZilla щелкните правой кнопкой мыши в любом месте и выберите «Создать новый файл».
Шаг 3: Появится окно с запросом имени. Введите:
robots.txt
Шаг 4: Нажмите OK, чтобы продолжить.Затем FileZilla создаст файл на вашем веб-хосте.
Теперь у вас есть пустой файл robots.txt, ожидающий редактирования. Поскольку FileZilla вносит эти изменения в реальном времени, файл сразу становится активным. Однако ничего не произойдет, потому что он пуст.
Шаг 2: Редактирование текстового файла
После создания файла нам нужно дать ему несколько команд. В противном случае поисковые системы проигнорируют это и пойдут дальше. Давайте добавим несколько инструкций, чтобы боты знали, как себя вести при посещении сайта.
Чтобы отредактировать файл robots.txt:
Шаг 1. Открыв и подключив FileZilla, щелкните правой кнопкой мыши только что созданный файл robots.txt и выберите «Изменить».
ПРИМЕЧАНИЕ : Откроется ваша программа редактирования текста. Большинство людей на компьютерах с Windows будут видеть Блокнот. Однако вы можете увидеть что-то другое в зависимости от того, какая у вас компьютерная система или установленное программное обеспечение. Если вы видите окно с вопросом, какую программу вы хотите использовать, выберите Блокнот или ваш любимый текстовый редактор.
Шаг 2: Первая команда обращается к ботам по имени. Например, Googlebot и Bingbot — это имена пользовательских агентов, которые сканируют сайт в поисках контента. Поскольку мы хотим сосредоточиться на всех поисковых системах, вместо этого мы будем использовать звездочку «*». Введите следующую строку:
User-Agent: *
Шаг 3. Нажмите Enter, чтобы перейти к следующей строке файла. Теперь мы собираемся настроить папку загрузок для сканирования поисковыми системами. Это называется «Разрешить». Поскольку папка содержит изображения и метаданные, относящиеся к оптимизации, мы хотим, чтобы она была проиндексирована.Введите следующую строку под пользовательским агентом:
Разрешить: / wp-content / uploads /
Шаг 4. Нажмите Enter, чтобы перейти к следующей строке. Затем мы собираемся настроить robots.txt так, чтобы «запрещать» доступ к определенным файлам и местоположениям. Это сделано для того, чтобы роботы не сканировали контент, который не имеет смысла для SEO. Чем меньше работы вы создаете для бота, тем лучше сайт работает в результатах поиска. Итак, давайте остановим сканирование папки плагинов, введя следующую команду:
Disallow: / wp-content / plugins /
Шаг 5. Нажмите Enter, чтобы перейти к следующей строке.Давайте запретим ботам индексировать конкретный файл. В этом случае мы заблокируем доступ к файлу readme.html. Это не часть вашего веб-сайта, а просто предоставляет информацию о WordPress в целом. Чтобы остановить доступ к файлу, введите следующий текст:
Disallow: /readme.html
Шаг 6. На этот раз дважды нажмите Enter, чтобы в файле появился двойной пробел. Поскольку мы хотим, чтобы поисковые системы находили карту сайта для нашего веб-сайта, мы хотим сообщить им, где она находится.В этом случае вы хотите использовать весь URL-адрес самой карты сайта. Введите следующее, но измените адрес на URL-адрес вашей карты:
Карта сайта: http://www.ggexample.com/sitemap.xml
Шаг 7. Теперь у вас есть полнофункциональный файл robots.txt. . Вы можете получить еще более подробную информацию, разрешив или запретив определенные части веб-сайта. В целом это должно выглядеть так:
User-Agent: *
Разрешить: / wp-content / uploads /
Disallow: / wp-content / plugins /
Disallow: / Прочти меня.html
Карта сайта: http://www.ggexample.com/sitemap.xml
Шаг 8: Сохраните файл.
ПРИМЕЧАНИЕ : FileZilla может отображать окно с предупреждением о том, как файл был изменен. Это связано с тем, что система автоматически создаст локальный файл на вашем компьютере во время редактирования. Установите флажок «Завершить редактирование и удалить локальный файл». Нажмите кнопку «Да», чтобы зафиксировать сохранение в папке WordPress.
У роботов поисковых систем теперь будет более четкий путь к содержанию, которое им нужно проиндексировать.Помните, что любое время, которое вы можете сэкономить для бота, улучшает ваш внешний вид в результатах поиска.
Плагины SEO и их поведение
Некоторые плагины SEO вносят изменения в файл robots.txt, если он существует. Например, Yoast SEO для WordPress имеет возможность сгенерировать для вас карту сайта. Если он настроен на это, он автоматически добавит URL карты сайта в WordPress в файл robots.txt.
Если по какой-то причине не удается добавить карты сайта из вашего плагина SEO, вы можете легко добавить их в robots.txt для улучшения функциональности SEO. Например, предположим, что ваш плагин SEO использует карты сайта для записей и страниц по отдельности. Затем вы должны добавить их в конец текстового файла, например:
Карта сайта: http://www.ggexample.com/post-sitemap.xml
Карта сайта: http://www.ggexample.com/ page-sitemap.xml
Маловероятно, что качественный плагин выйдет из строя при добавлении в файл robots.txt WordPress, но, как известно, такое случается. Периодическая проверка может быть неплохой идеей, особенно если вы меняете плагины SEO или добавляете новую функцию оптимизации в WordPress.
Защита вашего сайта
Поисковые системы — не единственное, что можно отговорить от доступа к определенным материалам на веб-сайте. Есть несколько ботов, установленных хакерами, которые маршрутизируются через файл robots.txt. Запрещая эти папки, боты, ищущие уязвимости, полностью обходят эти папки. Хотя это не является гарантией от всех угроз взлома, файл robots.txt может предложить уровень защиты от некоторых из них.
Получите больше от методов SEO
Из всех файлов, которые вы можете изменять в WordPress, файл robots.txt, пожалуй, один из самых простых. Кодирование простое и может быть выполнено за пять минут. Воспользуйтесь всеми возможными преимуществами, чтобы улучшить SEO вашего сайта. Можно с уверенностью сказать, что ваши конкуренты.
Какие модификации файлов вы внесли на свой веб-сайт? Какие ваши любимые инструменты SEO для WordPress?
Автор: Каумил Патель
Каумил Патель является главным операционным директором GreenGeeks и имеет более чем 13-летний опыт работы в индустрии веб-хостинга, работая с компаниями веб-хостинга и владея ими.Каумил специализируется на маркетинге, развитии бизнеса, операциях, слияниях и поглощениях.
Основное руководство по роботам WordPress txt
Если вы являетесь владельцем бизнеса и используете веб-сайт WordPress для общения со своими клиентами, вам жизненно важно продвигать его в поисковых системах. Поисковая оптимизация включает в себя множество важных шагов. Один из них — создание хорошего файла robots.txt.
Зачем вам этот файл? Какова его роль? Где он находится на вашем сайте WordPress? Как его создать?
Давайте рассмотрим подробнее.
Что такое txt-файл robots?
Когда вы создаете новый веб-сайт, поисковые системы, такие как Google, Bing и т. Д., Используют специальных ботов для его сканирования. После этого он создает подробную карту всех своих страниц. Это помогает им определить, какие страницы показывать, когда кто-то вводит поисковый запрос, используя соответствующие ключевые слова.
Проблема в том, что современные веб-сайты содержат много других элементов помимо страниц. Например, WordPress позволяет устанавливать плагины, у которых часто есть собственные каталоги.Не рекомендуется отображать их на странице результатов поиска, поскольку эти папки содержат конфиденциальный контент, который может представлять большую угрозу безопасности для сайта.
Чтобы настроить папки для сканирования, большинство владельцев веб-сайтов используют файл robots.txt WordPress, который предоставляет набор рекомендаций для роботов поисковых систем. Вы можете настроить, какие папки можно сканировать, а какие должны оставаться скрытыми от поисковых роботов. Этот файл может быть сколь угодно подробным, и его очень легко создать.
На практике поисковые системы все равно будут сканировать ваш сайт, даже если вы не создадите файл robots.txt. Однако не создавать его — очень иррациональный шаг. Без этого файла вы разрешаете поисковым роботам индексировать все содержимое вашего сайта, и они решают, что вы можете отображать все части вашего сайта, даже те, которые вы хотите скрыть от общего доступа.
Еще более важный момент: без текстового файла роботов WordPress поисковые роботы будут заходить на ваш сайт слишком часто. Это отрицательно скажется на его работоспособности.Даже если посещаемость вашего сайта все еще мала, скорость загрузки страницы всегда должна быть в приоритете и на самом высоком уровне. В конце концов, есть только несколько вещей, которые людям не нравятся больше, чем медленная загрузка сайта.
Где находится файл robots.txt для WordPress?
Когда вы создаете веб-сайт WordPress, сервер автоматически создает файл robots.txt и размещает его в вашем корневом каталоге на сервере. Например, если адрес вашего веб-сайта пример.com, вы можете найти его по адресу example.com/robots.txt. Вы можете открывать и редактировать его в любом текстовом редакторе. Он будет содержать следующие строки:
Агент пользователя: *
Запретить: / wp-admin /
Disallow: / wp-includes /
Это пример простейшего базового файла robots.txt. В переводе на человеческий язык правая часть после User-agent: объявляет, для каких роботов применяются правила. Звездочка означает, что правило универсальное и применяется ко всем ботам.В этом случае файл сообщает ботам, что они не могут сканировать каталоги wp-admin и wp-includes. Смысл этих правил в том, что эти каталоги содержат множество файлов, требующих защиты от публичного доступа.
Конечно, вы можете добавить в файл дополнительные правила. Перед тем как это сделать, необходимо понять, что это виртуальный файл. Обычно файл robots.txt WordPress находится в корневом каталоге, который часто называется public_html, www или по имени вашего сайта:
.
Вы можете использовать любой FTP-менеджер, например FileZilla, для доступа к этому файлу и загрузки новой версии на сервер.Все, что вам нужно, это знать логин и пароль для FTP-соединения. Вы можете обратиться в службу технической поддержки, чтобы узнать больше.
Некоторые основные требования к текстовому файлу роботов WordPress
Он должен быть доступен в корневом углу веб-сайта. Его адрес будет выглядеть так: example.com/robots.txt.
Размер файла не должен превышать 32 килобайт.
Текст должен содержать только латинские символы. Если в вашем доменном имени используются другие символы, используйте специальное программное обеспечение, чтобы правильно преобразовать его в латинские символы.
Не забывайте, что:
txt инструкции носят рекомендательный характер.
Настройки
txt не влияют на другие сайты (в robots.txt вы можете закрыть только страницы или файлы на текущем сайте).
Команды
txt чувствительны к регистру.
Типы инструкций robots.txt для поисковых роботов:
Частичный доступ к определенным частям сайта.
Запрещение полного сканирования.
Когда использовать robots.текст?
Используя текстовый файл роботов WordPress, мы можем закрывать от поисковых роботов страницы, которые вы не хотите индексировать, например:
страниц с личной информацией пользователя;
страниц с документацией и служебной информацией, не влияющей на то, как интерфейс отображается на экране;
определенные типы файлов, например файлы PDF;
Панель управления WordPress и т. Д.
Структура файла robots.txt
Веб-мастер может создать txt-файл роботов WordPress с помощью любого текстового редактора.Его синтаксис включает три основных элемента:
1 User-agent: [название поискового робота]
2 Disallow: [путь, к которому вы хотите закрыть доступ]
3 Разрешить: [путь, к которому вы хотите открыть доступ]
Кроме того, файл может содержать еще два дополнительных элемента:
1 Карта сайта: [адрес карты сайта]
Затем поместите созданный файл robots.txt в корневой каталог веб-сайта. Если ваш веб-сайт использует основной домен, файл будет расположен в папке / public_html / или / www /.Это зависит от хостинг-провайдера. В некоторых случаях он может быть немного другим, но большинство компаний используют указанную структуру. Если домен является дополнительным, имя папки будет включать имя веб-сайта и иметь вид /example.com/.
Чтобы поместить файл в соответствующую папку, вам понадобится FTP-клиент (например, FileZilla) и доступ к FTP, который провайдер предоставляет вам при покупке тарифного плана хостинга.
Пользовательский агент
Все инструкции воспринимаются роботами как единое целое и относятся только к тем поисковым роботам, которые были указаны в первой строке.Всего существует около 300 различных поисковых роботов. Если вы хотите применить одинаковые правила ко всем поисковым роботам, то в поле «User-agent» достаточно поставить звездочку (*). Этот символ означает любую последовательность символов. В результате это будет выглядеть так:
1 Пользовательский агент: *
Запретить
Эта команда дает поисковым роботам рекомендации, какие части сайта не следует сканировать. Если в файле robots.txt вы укажете Disallow: /, это закроет весь контент веб-сайта от сканирования.Если вам нужно закрыть определенную папку от сканирования, используйте Disallow: / folder.
Точно так же вы можете скрыть определенный URL, файл или определенный формат файла. Например, если вам нужно закрыть все PDF-файлы на сайте от индексации, вам нужно написать следующую инструкцию в WordPress robots txt:
1 Запрещено: /*.pdf$
Звездочка перед расширением файла означает любую последовательность символов (любое имя), а знак доллара в конце означает, что вы закрываете от индексации только файлы с расширением.pdf расширение.
В следующих справочных материалах от Google вы найдете список команд для блокировки URL-адресов в файле robots.txt.
Разрешить
Эта команда позволяет сканировать любой файл, папку или страницу. Допустим, необходимо открывать для сканирования роботами только страницы, содержащие слово / другое, и закрывать весь остальной контент. В этом случае используйте следующую комбинацию:
1 Пользовательский агент: *
2 Разрешить: / другое
3 Запрещено: /
Правила разрешения и запрета сортируются по префиксу URL (от самого короткого к самому длинному) и применяются последовательно.В примере будет следующий порядок инструкций: сначала робот просканирует Disallow: /, а затем Allow: / other, то есть будет проиндексирована папка / other.
Типичные ошибки в файле robots.txt
Неправильный порядок команд. Должна быть четкая логическая последовательность инструкций. Сначала User Agent, затем Allow и Disallow. Если вы разрешаете использование всего сайта, но запрещаете использование отдельных разделов или файлов, сначала поставьте «Разрешить», а затем «Запретить».Если вы запрещаете весь раздел, но хотите открыть некоторые из его частей, то Disallow будет расположен выше, чем Allow.
Несколько папок или каталогов в одной инструкции разрешения или запрета. Если вы хотите зарегистрировать несколько разных инструкций Allow и Disallow в файле robots.txt, введите каждую из них с новой строки:
Запретить: / папка
Запрет: / admin
Неверное имя файла. Имя должно быть исключительно «robots.txt », состоящий только из строчных латинских букв.
Пустое правило агента пользователя. Если вы хотите установить общие инструкции для всех роботов, то поставьте звездочку.
Синтаксические ошибки. Если вы по ошибке указали один из дополнительных элементов синтаксиса в одной из инструкций, робот может неправильно их интерпретировать.
Как создать файл robots.txt для вашего веб-сайта WordPress
Как только вы решите создать свой robots.txt, все, что вам нужно, это найти способ его создать. Вы можете редактировать robots.txt в WordPress с помощью плагина или вручную. В этом разделе мы научим вас использовать два самых популярных плагина для этой задачи и обсудим, как создать и загрузить файл вручную. Погнали!
Использование плагина Yoast SEO
Плагин
Yoast SEO очень популярен. Это самый известный плагин SEO для WordPress, он позволяет вам улучшать сообщения и страницы, чтобы лучше использовать ключевые слова.Кроме того, он также оценит читабельность вашего контента, и это увеличит потенциальную аудиторию. Многие разработчики восхищаются плагином Yoast SEO из-за его простоты и удобства.
Одна из основных функций — создание файла robots.txt для вашего веб-сайта. После установки и активации плагина перейдите на вкладку SEO — Tools в консоли плагина и найдите параметр File Editor:
Нажав на эту ссылку, вы можете редактировать файл .htaccess, не выходя из консоли администратора.Также есть кнопка «Создать файл robots.txt»:
.
После нажатия кнопки на вкладке плагин отобразит новый редактор, в котором вы можете напрямую редактировать файл robots.txt. Обратите внимание, что Yoast SEO устанавливает свои правила по умолчанию, которые переопределяют правила существующего виртуального файла robots.txt.
После удаления или добавления правил нажмите кнопку «Сохранить изменения» в robots.txt, чтобы применить их:
Вот и все! Давайте теперь посмотрим на еще один популярный плагин, который позволит выполнять ту же задачу.
Использование плагина All in One SEO Pack
Плагин All in One SEO Pack — еще один отличный плагин WordPress для поисковой оптимизации. Он включает в себя большинство функций плагина Yoast SEO, но некоторые владельцы веб-сайтов предпочитают его, потому что он более легкий. Что касается создания файла robots.txt, создать его в этом плагине также просто.
После установки плагина перейдите в All in One SEO — Manage Modules в консоли. Внутри вы найдете роботов.txt с большой синей кнопкой Активировать в правом нижнем углу. Нажмите на нее:
Теперь вы сможете найти новую вкладку Robots.txt в меню All in One SEO. Нажмите на нее, чтобы увидеть настройки для добавления новых правил в ваш файл. Далее сохраняем изменения или удаляем все:
Обратите внимание, что в отличие от Yoast SEO, который позволяет вам вводить все, что вы хотите, вы не можете напрямую изменять файл robots.txt с помощью этого плагина. Содержимое файла будет неактивным.Вы просто увидите серый фон.
Но, поскольку добавлять новые правила очень просто, этот факт не должен вас расстраивать. Что еще более важно, All in One SEO Pack также включает функцию, которая помогает вам блокировать «плохих» ботов. Вы можете найти его на вкладке All in One SEO:
Это все, что вам нужно сделать, если вы выберете этот метод. Теперь давайте поговорим о том, как создать текстовый файл для роботов WordPress вручную, если вы не хотите устанавливать дополнительный плагин только для этой задачи.
Создание и загрузка файла robots.txt для WordPress через FTP
Чтобы создать файл robots.txt вручную, откройте свой любимый редактор (например, Блокнот или TextEdit), добавьте все необходимые команды и сохраните файл с расширением txt на локальный диск. Это займет буквально несколько секунд, поэтому вы можете создать robots.txt для WordPress без использования плагина.
Вот быстрый пример такого файла:
После того, как вы создали свой собственный файл, вам необходимо подключиться к вашему сайту через FTP и поместить файл в корневую папку.В большинстве случаев это каталог public_html или www. Вы можете загрузить файл, щелкнув его правой кнопкой мыши в локальном диспетчере FTP или просто перетащив файл:
Это тоже занимает несколько секунд. Как видите, этот метод не сложнее, чем использование плагина.
Как протестировать файл robots.txt для вашего сайта WordPress
Теперь пора проверить файл robots.txt на наличие ошибок в консоли поиска Google. Search Console — это один из инструментов Google, предназначенный для помощи в отслеживании того, как ваш контент отображается на странице результатов поиска.Один из этих инструментов проверяет robots.txt, вы можете использовать его, перейдя в свой файл Robots.txt в разделе «Инструмент проверки» консоли:
Здесь вы найдете поле редактора, в которое вы можете добавить код для вашего файла robots.txt WordPress, и нажмите «Отправить». Консоль поиска Google спросит, хотите ли вы использовать новый код или загрузить файл со своего сайта. Выберите параметр «Спросить Google об обновлении», чтобы опубликовать код вручную:
Теперь платформа проверит ваш файл на наличие ошибок.Если он обнаружит ошибку, он немедленно уведомит вас.
Заключение
Файл
WordPress robots txt — это очень мощный инструмент для увеличения видимости веб-сайта для роботов поисковых систем. Поскольку это так важно, создавать его не так уж и сложно. Есть какой-нибудь идеальный файл? Мы не можем так сказать. Он будет отличаться в зависимости от содержания вашего веб-сайта и того, какого результата вы хотите достичь.
Что такое Robots.txt в WordPress и как его оптимизировать для SEO
Поисковая оптимизация — это то, к чему в настоящее время должен относиться каждый владелец веб-сайта очень серьезно.В связи с тем, что поисковые системы постоянно совершенствуют свои стратегии сканирования и становятся все более и более изощренными, поисковая оптимизация часто может быть довольно сложной задачей. Хотя некоторые методы, такие как использование ключевых слов и поисковая оптимизация на странице, знакомы многим, другие методы менее понятны, но не менее важны. Поэтому в этой статье мы решили поговорить о robots.txt — одном из самых неоднозначных инструментов SEO.
Что такое Robots.txt
Проще говоря, robots.txt — это механизм связи между сайтом и поисковыми системами.В нем изложены правила индексации вашего веб-сайта и представлены их поисковому роботу. По сути, файл определяет, какие части вашего сайта Google разрешает индексировать, а каких следует избегать.
Однако важно помнить, что, хотя большинство надежных поисковых систем распознают и соблюдают директивы в файле robots.txt, некоторые вредоносные или низкокачественные сканеры могут полностью их игнорировать.
Теперь, если вам интересно, является ли robots.txt абсолютной необходимостью, ответ — нет.Ваш сайт будет проиндексирован поисковыми системами независимо от того, есть он у вас или нет. Кроме того, в WordPress есть собственный виртуальный файл robots.txt. Однако настоятельно рекомендуется создать этот файл для своего сайта и поместить его в корневую папку.
Как создать один для WordPress
Создание файла robots.txt на самом деле намного проще, чем можно подумать. Все, что вам нужно сделать, это создать текстовый файл, назвать его robots.txt и загрузить в корневой каталог своего сайта. В этом отношении добавить контент в файл не так уж и сложно.Есть только 6 возможных команд, которые вы можете включить в robots. txt:
User-Agent — определяет краулера поисковой системы;
Disallow — запрещает поисковому роботу индексировать определенные файлы или каталоги на вашем сайте;
Разрешить — специально позволяет сканировать элемент на сайте;
Карта сайта — указывает поисковому роботу на карту сайта;
Хост — обозначает предпочтительный домен для сайта с более чем одним зеркалом;
Crawl-delay — определяет временной интервал между запросами поисковых систем к вашему серверу.
Что касается имен пользовательских агентов, то полный список можно найти на этом сайте. Обратите внимание: если вы хотите установить одинаковые правила для всех поисковых систем, используйте звездочку (*) после команды user-agent.
Вот еще несколько общих правил создания файла robots.txt.
Если вы хотите определить разные правила для конкретных ботов, сделайте это в начале файла.
Используйте косую черту, чтобы разрешить или запретить все каталоги.
Определите каждую сущность, которую вы хотите разрешить / запретить, с помощью отдельной строки команды.
Не используйте комментарии и пробелы.
Помните, что пути к каталогам чувствительны к регистру.
Принимая во внимание все вышесказанное, пример файла robots.txt может выглядеть примерно так:
User-Agent: * Разрешить: / wp-content / uploads / Запретить: / wp-content / plugins / Карта сайта: http://mysite.com/post-sitemap.xml Карта сайта: http://mysite.com/page-sitemap.xml
Что включить в файл Robots.txt
Как уже упоминалось в начале этой статьи, robots.txt вызвал много споров в сети. Различные источники предоставляют различные, часто противоречащие друг другу советы по наилучшему использованию этого инструмента SEO.
Одна из существующих тактик создания файла robots.txt подчеркивает необходимость запретить использование readme.html и каталога плагинов WordPress, а также страниц входа в систему. Этот шаг рекомендуется предпринять для повышения безопасности вашего сайта и защиты его от массовых атак. В соответствии с этой стратегией также рекомендуется добавить карту сайта в файл robots.текст.
Другой подход довольно минималистичен. Он основан на том факте, что поисковые системы и Google, в частности, воспринимают сайт как единое целое, и из-за этого запрет на использование некоторых объектов может привести к серьезным ошибкам сканирования и, таким образом, к снижению рейтинга в поисковых системах.