Разное

Wp robots txt: Правильный файл robots.txt для WordPress — важные правила при запрете индексации

02.12.2020

Содержание

Что такое robots.txt и как его настроить

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге. 

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации. 

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта 

/robots.txt и вы увидите его.

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

  • дубли страниц;
  • служебные файлы;
  • файлы, которые бесполезны для посетителей;
  • страницы с неуникальным контентом.

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано. 

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы. 

User-agent

Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него. 

Пример:


User-agent: Yandex

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:


User-agent: *

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

Пример:


Allow: /category/

Даем рекомендацию, чтобы индексировались категории. 


Disallow: /

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

  • * звездочка означает любую последовательность символов (либо отсутствие символов).
  • $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.

Disallow: /category/$ # закрываем только страницу категорий

Disallow: /category/* # закрываем все страницы в папке категории

Sitemap

Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к

Sitemap.

Пример:


Sitemap: http://site.ru/sitemap.xml

Директива host уже устарела, поэтому о ней говорить не будем. 

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:


Crawl-delay: 10 

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы. 

Пример:


Clean-Param: utm_source&utm_medium&utm_campaign

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:


User-agent: *

Disallow: /

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.

Переходим в инструмент, вводим домен и содержимое вашего файла.

Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется. 

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами. 


User-agent: *

Disallow: /cgi-bin # папка на хостинге

Disallow: /wp-admin

Disallow: /wp-includes 

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp-

Disallow: /xmlrpc.php # файл WordPress API

Disallow: /*? # поиск

Disallow: /?s= # поиск

Allow: /*.css # стили

Allow: /*.js # скрипты

Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)

Правильный robots.txt для Joomla


User-agent: *

Disallow: /administrator/ 

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Sitemap: https://site.ru/sitemap.xml

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.

ROBOTS.TXT. Правильный роботс | Блог Хостинг Украина

Основной синтаксис

User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)

Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).

Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.

Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.

Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.

Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.

Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа

* (звездочка) – означает любую последовательность символов

$ (знак доллара) – означает конец строки

Основные примеры использования robots.txt

Запрет на индексацию всего сайта

User-agent: *

Disallow: /

Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.

Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.

А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:

User-agent: *

Disallow:

Запрет на индексацию определенной папки

User-agent: Googlebot

Disallow: /no-index/

Запрет на посещение страницы для определенного робота

User-agent: Googlebot

Disallow: /no-index/this-page.html

Запрет на индексацию файлов определенного типа

User-agent: *

Disallow: /*.pdf$

Разрешить определенному поисковому роботу посещать определенную страницу

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Ссылка на Sitemap

User-agent: *

Disallow:

Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то

  • лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,

  • саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap.xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),

так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.

Шаблон для WordPress 

Allow: /wp-content/themes/*.js 

Allow: /wp-content/themes/*.css 

Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js 

Allow: /wp-content/plugins/*.js 

Allow: /wp-content/plugins/*.css 

Шаблон для Joomla 

Allow: /templates/*.css 

Allow: /templates/*.js 

Allow: /templates/*.png 

Allow: /templates/*.gif 

Allow: /templates/*.ttf 

Allow: /templates/*.svg 

Allow: /templates/*.woff 

Allow: /components/*.css 

Allow: /components/*.js 

Allow: /media/*.js Allow: /media/*.css 

Allow: /plugins/*.css Allow: /plugins/*.js 

Шаблон для Bitrix 

Allow: /bitrix/templates/*.js 

Allow: /bitrix/templates/*.png 

Allow: /bitrix/templates/*.jpg 

Allow: /bitrix/templates/*.gif 

Allow: /bitrix/cache/css/*.css 

Allow: /bitrix/cache/js/s1/*.js 

Allow: /upload/iblock/*.jpg 

Allow: /upload/iblock/*.png 

Allow: /upload/iblock/*.gif 

Шаблон для DLE 

Allow: /engine/classes/*.css 

Allow: /engine/classes/*.js 

Allow: /templates/ 

Разобравшись с простым синтаксисом команд для робота, также важно учесть и такие значения мета-тега robots 

Данному мета-тегу можно присвоить четыре варианта значений. 

Атрибут content может содержать следующие значения:

index, noindex, follow, nofollow

Если значений несколько, они разделяются запятыми.

В настоящее время лишь следующие значения важны:

Директива INDEX говорит роботу, что данную страницу можно индексировать.

Директива FOLLOW сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. 

Итак, глобальные директивы выглядят так:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX,NOFLLOW

Примеры мета-тега robots:


Заказывайте хостинг и выбирайте домен в компании «Хостинг Украина». 

У нас качественный и надежный сервис, удобное система управления через админ-панель, интеллектуальные системы защиты и техническая поддержка, которая поможет решить все возникающие вопросы в любое время суток.

Наши цены: SSD хостинг от 1$, VPS на SSD от 12$, Cloud (облачный) хостинг от 3$, облачный VPS от 6$.

Присоединяйтесь к «Хостинг Украина» и мы позаботимся о технической стороне вашего бизнеса.

Кликай и подписывайся!


Только зарегистрированные пользователи могут оставлять комментарии

Как настроить файл robots.txt для WordPress



[UPDATE 2013]

Я не могу найти авторитетную страницу с форматом файла robots.txt для WordPress. Я обещаю поддерживать его на своем сайте, но я хочу, чтобы он был здесь, на stack overflow.

Если вы знаете, что делаете, пожалуйста, проверьте текущий проект здесь:

http://mast3rpee.tk/? p=127

Все остальные комментируют это:

robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Sitemap: http://domain.com/sitemap.xml
Crawl-delay: 4
wordpress robots.txt
Поделиться Источник mAsT3RpEE     10 июня 2013 в 17:46

4 ответа


  • SEO хаос от изменения файла robots.txt на сайте WordPress

    Недавно я отредактировал файл robots.txt на своем сайте с помощью плагина wordpress. Однако с тех пор, как я это сделал, google, похоже, удалил мой сайт со своей страницы поиска. Я был бы признателен, если бы мог получить экспертное мнение о том, почему это так, и возможное решение. Сначала я…

  • Как запретить часть строки в robots.txt для WordPress

    У меня есть следующая настройка в моем файле wordpress robots.txt. По какой-то причине разрешающая часть этого не работает? Согласно Google webmaster tools, ему не нравится следующее. Кто-нибудь может сказать мне, почему? Disallow: /blog/author/* Allow: /blog/author/admin Спасибо! 🙂



10

User-agent: *
Allow: /
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /e/
Disallow: /show-error-*
Disallow: /xmlrpc.php
Disallow: /trackback/
Disallow: /comment-page-
Allow: /wp-content/uploads/

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://yoursite.com/sitemap.xml

Я думаю, что этот код очень аутентичен для файла robots.txt, просто перейдите в Public_HTML и создайте файл с robots.txt и вставьте выше код. Вы можете сделать это в своем блокноте, просто скопируйте приведенный выше код и вставьте в notpad, но помните, что имя файла должно быть robots.txt и загрузить его в ваш public_HTML.

Поделиться Waqas Ahmad     27 октября 2013 в 10:33



1

Как и все вещи SEO, вещи меняются. Я думаю, что в настоящее время совет состоит в том, чтобы иметь очень минимальный файл robots.txt.

Игнорирование wp-admin, wp-includes, wp-content и т. д. может помешать Google правильно отображать страницы, что ему не нравится.

Ознакомьтесь с этой статьей Йоаста: https://yoast.com/wordpress-robots-txt-example/ .

Поделиться kdev     06 февраля 2015 в 14:27



0

Создайте в блокноте robots.txt и загрузите его в public_html в CPANEL .

*remember переименовать свой блокнот на роботов, прежде чем загрузить его в public_html

Поделиться Muhammad Zaid     21 августа 2013 в 06:57


  • Как остановить WordPress показ виртуального Robots.txt?

    ну, проблема в том, что я могу видеть файл robots.txt здесь : http://persian.cc (пожалуйста, поставьте /robots.txt после доменного имени) Но google не может ! Я знаю, что могу найти robots.txt файла в корне веб-сайта, но эй, в моем файле нет robots.txt файла, а этот robots.txt-виртуальный файл,…

  • Как настроить robots.txt для разрешения нескольких страниц?

    У меня есть сайт под названием www.example.com-где это только целевая страница. — его сайт html. На этой странице есть кнопка под названием CLiCK WEBSITE-там, где находится мой настоящий сайт. таким образом, на url он должен выглядеть как www.example.com/originalwebsite — его сайт wordpress….


Поделиться Dan Knauss     26 марта 2015 в 21:13


Похожие вопросы:


Как настроить файл robots.txt, чтобы остановить отображение некоторых страниц в моей теме WordPress?

Я создаю тему WordPress и развернул ее в производство, но некоторые страницы не имеют контента, потому что в настоящее время контент страницы не готов. Вот почему я хочу использовать robots.txt для…


WordPress функция обновления или создания robots.txt

Я делаю плагин для WordPress с функцией обновления файла robots.txt или создания его, если он еще не существует. До сих пор у меня есть эта функция: function roots_robots() { echo Disallow:…


WordPress Robots.txt имеет ли значение /feed?

У меня есть вопрос вопросы, касающиеся SEO, Robots.txt и wordpress Вот как выглядит мой robots.txt: User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow:…


SEO хаос от изменения файла robots.txt на сайте WordPress

Недавно я отредактировал файл robots.txt на своем сайте с помощью плагина wordpress. Однако с тех пор, как я это сделал, google, похоже, удалил мой сайт со своей страницы поиска. Я был бы…


Как запретить часть строки в robots.txt для WordPress

У меня есть следующая настройка в моем файле wordpress robots.txt. По какой-то причине разрешающая часть этого не работает? Согласно Google webmaster tools, ему не нравится следующее. Кто-нибудь…


Как остановить WordPress показ виртуального Robots.txt?

ну, проблема в том, что я могу видеть файл robots.txt здесь : http://persian.cc (пожалуйста, поставьте /robots.txt после доменного имени) Но google не может ! Я знаю, что могу найти robots.txt файла…


Как настроить robots.txt для разрешения нескольких страниц?

У меня есть сайт под названием www.example.com-где это только целевая страница. — его сайт html. На этой странице есть кнопка под названием CLiCK WEBSITE-там, где находится мой настоящий сайт. таким…


редактирование robots.txt в wordpress без плагина и без ручных правок

Я пытаюсь отредактировать файл robots.txt в wordpress. Я могу сделать это вручную. Есть ли возможность в wordpress (без установки плагинов) редактировать robots.txt или для этого нужно установить…


Где robots.txt существует в WordPress

Я создал веб-приложение, используя wordpress. Когда я поиск в Google показывает Описание этого результата недоступно из-за robots.txt этого сайта Я ввожу дисплей url/robots.txt.It User-agent: *…


robots.txt файл переопределяется / вводится из внешнего источника?

У нас есть пара сайтов WordPress с этой же проблемой. По-видимому, у них есть файл robots.txt со следующим содержимым: User-Agent: * Crawl-Delay: 300 User-Agent: MJ12bot Disallow: / User-agent:…

Делаем правильный robots.txt и sitemap.xml / Мастерская интернет-разработчика

29 мая 2009 г. Google WordPress SEO Яндекс Поисковые системы

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы — отпишите в камменты), но на всякий случай прикрою дубляжи!

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

UPD: Про дублирующийся контент в WordPress.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

http://ru.wikipedia.org/wiki/Robots.txt

Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу — Все о файле robots.txt по-русски.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для WordPress: Идеальный robots.txt для WordPress и Идеальный robots.txt для WordPress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

User-agent: *
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: /sitemap.xml

Я разрешил поисковым ботам индексировать меня только по «Тегам» и «Архиву». Обратите внимание, я использую маску /wp-, для того чтобы URL’ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл «sitemap.xml» для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

http://ru.wikipedia.org/wiki/Sitemaps

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Для WordPress существует плагин — Google XML Sitemaps (другие полезные плагины для WordPress используемые мной). Этот плагин генерирует за вас файл sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Google
http://google.com/webmasters/sitemaps/ping?sitemap=<sitemap_location>

Яндекс
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=<sitemap_location>

Yahoo!
http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=<sitemap_location>
http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=<sitemap_location>

Ask.com
http://submissions.ask.com/ping?sitemap=<sitemap_location>

Live Search
http://webmaster.live.com/ping.aspx?siteMap=<sitemap_location>

Где <sitemap_location> необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml.

Информация по пингам взята с http://ru.wikipedia.org/wiki/Sitemaps

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

Самый правильный robots.txt для популярных CMS

Содержание с переходом

Примеры robots.txt

robots.txt – это текстовый файл, лежащий в корне сайта и сообщающий поисковым системам как индексировать сайт. Набор строк сообщает, какие разделы сайта разрешить или запретить от индексации, причем для некоторых поисковых систем, может быть использованы дополнительные параметры обрабатывающий только конкретной поисковой системой.

Подробное руководство по использованию - robots.txt для Яндекс

Для тех, кто долго не любит вникать, как правильно составить robots.txt, привожу сразу список наиболее популярных CMS, и какие чаще всего подойдут для них настройки.

Главное понимать, что эти файлы не гарантируют 100% правильную работу, так как могут не закрыть разделы которые у Вас должны быть закрыты или напротив закрыть то, что не должно быть закрыто. Эти примеры лучше всего использовать, для того чтобы составить самому правильный роботикс тхт для своего сайта и не упустить особенности используемого Вами движка.

Так же не забыть там, где стоит site.ru подставить свой сайт.

Почти во всех случаях будет актуально:


Clean-param: utm_source=*
Clean-param: utm_medium=*
Clean-param: utm_campaign=*
Clean-param: utm_content=*
Clean-param: utm_term=*
Clean-param: cm_id=*
Clean-param: openstat=*
Clean-param: ycid=*
Clean-param: gcid=*
Clean-param: ref=*

Просим не копировать и вставлять в том виде как есть, здесь перечислены лишь популярные элементы и так же требует тонкой настройки.

Если все слишком сложно, то пишите на почту, помогу настроить индексацию сайта.

robots.txt для WordPress

User-agent: *
Allow: /wp-content/uploads
Disallow: */comment-page-*
Disallow: */comments
Disallow: */feed
Disallow: */trackback
Disallow: /*?
Disallow: /?feed=
Disallow: /?s=
Disallow: /author
Disallow: /cgi-bin
Disallow: /comments
Disallow: /page
Disallow: /search
Disallow: /tag
Disallow: /trackback
Disallow: /webstat
Disallow: /wp-admin
Disallow: /wp-comments
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-feed
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-trackback
Disallow: /xmlrpc.php
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

robots.txt для Joomla

User-agent: *
Allow: /images
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /*?action=print
Disallow: /*?sl*
Disallow: /*atom.html
Disallow: /*rss.html
Disallow: /administrator
Disallow: /bin
Disallow: /cache
Disallow: /cli
Disallow: /component
Disallow: /components
Disallow: /includes
Disallow: /index*
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /installation
Disallow: /language
Disallow: /layouts
Disallow: /libraries
Disallow: /logs
Disallow: /media
Disallow: /modules
Disallow: /plugins
Disallow: /templates
Disallow: /tmp
Disallow: /trackback
Disallow: /xmlrpc
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

robots.txt для MODX

User-agent: *
Disallow: /*?
Disallow: /*?id=
Disallow: /assets
Disallow: /assets/cache
Disallow: /assets/components
Disallow: /assets/docs
Disallow: /assets/export
Disallow: /assets/import
Disallow: /assets/modules
Disallow: /assets/plugins
Disallow: /assets/snippets
Disallow: /connectors
Disallow: /core
Disallow: /index.php
Disallow: /install
Disallow: /manager
Disallow: /profile
Disallow: /search
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для uCoz

User-agent: *
Allow: /*?page
Allow: /*?ref=
Disallow: /*-*-*-*-987$
Disallow: /*?
Disallow: /*_escaped_fragment_=
Disallow: /*0-*-0-17$
Disallow: /*0-0-
Disallow: /*-0-0-
Disallow: /a/
Disallow: /abnl
Disallow: /admin
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub
Disallow: /informer
Disallow: /mchat
Disallow: /panel
Disallow: /poll
Disallow: /register
Disallow: /search
Disallow: /secure
Disallow: /shop/checkout
Disallow: /shop/user
Disallow: /stat
Sitemap: http://site.ru/sitemap-forum.xml
Sitemap: http://site.ru/sitemap-shop.xml
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для Drupal

User-agent: *
Disallow: *comment*
Disallow: *login*
Disallow: *register*
Disallow: /*&sort*
Disallow: /*/delete
Disallow: /*/edit
Disallow: /*?sort*
Disallow: /*calendar
Disallow: /*index.php
Disallow: /*order
Disallow: /*section
Disallow: /*votesupdown
Disallow: /?q=admin
Disallow: /?q=admin/
Disallow: /?q=comment/reply
Disallow: /?q=contact
Disallow: /?q=filter/tips
Disallow: /?q=logout
Disallow: /?q=node/add
Disallow: /?q=search
Disallow: /?q=user/login
Disallow: /?q=user/logout
Disallow: /?q=user/password
Disallow: /?q=user/register
Disallow: /admin
Disallow: /admin/
Disallow: /archive/
Disallow: /book/export/html
Disallow: /CHANGELOG.txt
Disallow: /comment
Disallow: /comment/reply
Disallow: /comments/recent
Disallow: /contact
Disallow: /cron.php
Disallow: /filter/tips
Disallow: /forum
Disallow: /forum/active
Disallow: /forum/unanswered
Disallow: /includes
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.sqlite.txt
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /logout
Disallow: /logout/
Disallow: /MAINTAINERS.txt
Disallow: /messages
Disallow: /misc
Disallow: /modules
Disallow: /node
Disallow: /node/add
Disallow: /print/node
Disallow: /profile
Disallow: /profiles
Disallow: /scripts
Disallow: /search
Disallow: /taxonomy
Disallow: /taxonomy/term*/feed
Disallow: /themes
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /user
Disallow: /user/
Disallow: /user/login
Disallow: /user/logout
Disallow: /user/password
Disallow: /user/register
Disallow: /xmlrpc.php
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для 1С-Битрикс

User-agent: *
Allow: /map/
Allow: /search/map.php
Allow: /bitrix/templates/
Disallow: */index.php
Disallow: /*action=
Disallow: /*print=
Disallow: /*/gallery/*order=
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*?utm_source=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*arrFilter=
Disallow: /*auth=
Disallow: /*back_url_admin=
Disallow: /*BACK_URL=
Disallow: /*back_url=
Disallow: /*backurl=
Disallow: /*bitrix_*=
Disallow: /*bitrix_include_areas=
Disallow: /*building_directory=
Disallow: /*bxajaxid=
Disallow: /*change_password=
Disallow: /*clear_cache_session=
Disallow: /*clear_cache=
Disallow: /*count=
Disallow: /*COURSE_ID=
Disallow: /*forgot_password=
Disallow: /*ID=
Disallow: /*index.php$
Disallow: /*login=
Disallow: /*logout=
Disallow: /*modern-repair/$
Disallow: /*MUL_MODE=
Disallow: /*ORDER_BY
Disallow: /*PAGE_NAME=
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGEN_
Disallow: /*print_course=
Disallow: /*print=
Disallow: /*q=
Disallow: /*register=
Disallow: /*register=yes
Disallow: /*set_filter=
Disallow: /*show_all=
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*SHOWALL_
Disallow: /*sort=
Disallow: /*sphrase_id=
Disallow: /*tags=
Disallow: /access.log
Disallow: /admin
Disallow: /api
Disallow: /auth
Disallow: /auth.php
Disallow: /auto
Disallow: /bitrix
Disallow: /bitrix/
Disallow: /cgi-bin
Disallow: /club/$
Disallow: /club/forum/search/
Disallow: /club/gallery/tags/
Disallow: /club/group/search/
Disallow: /club/log/
Disallow: /club/messages/
Disallow: /club/search/
Disallow: /communication/blog/search.php
Disallow: /communication/forum/search/
Disallow: /communication/forum/user/
Disallow: /content/board/my/
Disallow: /content/links/my/
Disallow: /error
Disallow: /e-store/affiliates/
Disallow: /e-store/paid/detail.php
Disallow: /examples/download/download_private/
Disallow: /examples/my-components/
Disallow: /include
Disallow: /personal
Disallow: /search
Disallow: /temp
Disallow: /tmp
Disallow: /upload
Disallow: /*/*ELEMENT_CODE=
Disallow: /*/*SECTION_CODE=
Disallow: /*/*IBLOCK_CODE
Disallow: /*/*ELEMENT_ID=
Disallow: /*/*SECTION_ID=
Disallow: /*/*IBLOCK_ID=
Disallow: /*/*CODE=
Disallow: /*/*ID=
Disallow: /*/*IBLOCK_EXTERNAL_ID=
Disallow: /*/*SECTION_CODE_PATH=
Disallow: /*/*EXTERNAL_ID=
Disallow: /*/*IBLOCK_TYPE_ID=
Disallow: /*/*SITE_DIR=
Disallow: /*/*SERVER_NAME=
Sitemap: http://site.ru/sitemap_index.xml
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

robots.txt для NetCat

User-agent: *
Disallow: /*.swf
Disallow: /*?
Disallow: /eng
Disallow: /install
Disallow: /js
Disallow: /links
Disallow: /netcat
Disallow: /netcat_cache
Disallow: /netcat_dump
Disallow: /netcat_files
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для UMI.CMS

User-agent: *
Disallow: /*?
Disallow: /?
Disallow: /admin
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /files
Disallow: /go_out.php
Disallow: /images
Disallow: /images/lizing
Disallow: /images/ntc
Disallow: /index.php
Disallow: /install-libs
Disallow: /install-static
Disallow: /install-temp
Disallow: /search
Disallow: /users
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для HostCMS

User-agent: *
Disallow: /403
Disallow: /404
Disallow: /admin
Disallow: /articles/tag
Disallow: /captcha.php
Disallow: /chmod.sh
Disallow: /config.php
Disallow: /config_db.php
Disallow: /data_templates
Disallow: /documents
Disallow: /download_file.php
Disallow: /glossary/tag
Disallow: /hostcmsfiles
Disallow: /lib
Disallow: /logs
Disallow: /main_classes.php
Disallow: /modules
Disallow: /news/tag
Disallow: /search
Disallow: /structure
Disallow: /templates
Disallow: /tmp
Disallow: /upload
Disallow: /xsl
Disallow: captcha.php
Disallow: download_file.php
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


robots.txt для OpenCart

User-agent: *
Disallow: /*filter_description=
Disallow: /*filter_name=
Disallow: /*filter_sub_category=
Disallow: /*keyword
Disallow: /*limit=
Disallow: /*manufacturer
Disallow: /*order=
Disallow: /*page=
Disallow: /*route=account
Disallow: /*route=account/login
Disallow: /*route=affiliate
Disallow: /*route=checkout
Disallow: /*route=checkout/cart
Disallow: /*route=product/search
Disallow: /*sort=
Disallow: /*tracking=
Disallow: /admin
Disallow: /cache
Disallow: /cart
Disallow: /catalog
Disallow: /change-password
Disallow: /checkout
Disallow: /download
Disallow: /export
Disallow: /index.php?route=account
Disallow: /index.php?route=account/account
Disallow: /index.php?route=account/login
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/category
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /index.php?route=product/search
Disallow: /login
Disallow: /my-account
Disallow: /order-history
Disallow: /request-return
Disallow: /search
Disallow: /search?filter_name=
Disallow: /search?tag=
Disallow: /system
Disallow: /vouchers
Disallow: /vqmod
Disallow: /wishlist
Sitemap: http://site.ru/sitemap.xml
Host: site.ru


Проверка robots.txt

После вставки проверяем корректность работы файла:

Для Яндекс – без регистрации, через Яндекс.Вебмастер
Для Google – инструкция, с регистрацией через Google Вебмастер

В заключении о файле индексации

Если нет Вашей CMS пишите, для Вас составлю бесплатно этот файл и добавлю в список поста.

Так же я старался дать уникальные примеры файлов и редко делю директиву User-agent, как это некоторые любят, по следующим причинам:

  • нет смысла делить то, что понимают все поисковые системы, результат создает избыточный размер файла, в крайнем случае, неизвестную директиву проигнорируют
  • если мы делим на конкретные ПС, не указывая звездочку, то другие ПС не смогут корректно проиндексировать сайт
  • если мы делим на конкретные ПС с указанием звездочки, тогда нет смысла перечислять в двух местах одни и те же директивы, а для других ПС имеет смысл перечислять тоже самое

Подробное руководство по использованию - robots.txt для Яндекс

Для тех, кто долго не любит вникать, как правильно составить robots.txt, привожу сразу список наиболее популярных CMS, и какие чаще всего подойдут для них настройки.

Главное понимать, что эти файлы не гарантируют 100% правильную работу, так как могут не закрыть разделы которые у Вас должны быть закрыты или напротив закрыть то, что не должно быть закрыто. Эти примеры лучше всего использовать, для того чтобы составить самому правильный роботикс тхт для своего сайта и не упустить особенности используемого Вами движка.

Так же не забыть там, где стоит site.ru подставить свой сайт.

Если все слишком сложно, то пишите на почту, помогу настроить индексацию сайта.

Robots.txt для WordPress.

В wordpress есть несколько служебных файлов и папок, которые по-умолчанию могут индексироваться поисковиками. Это лишняя информация, которая засоряет базу поисковика, и мешает индексировать сайт, да и выставлять наружу файлы движка не самый лучший ход. Чтобы скрыть их нужно использовать файл robots.txt о котором и пойдет речь далее. Помимо этого я недавно рассматривал тему дублирующегося контента в wordpress, и все выводы, сделанные в той статье, найдут отражение при написании конечного robots.txt здесь.Если вы не знакомы с форматом и параметрами файла robots.txt, то более подробно можно почитать в моей статье об этом файле. Структура wordpress слабо меняется с выходом новых версия, поэтому можно говорить, что мой вариант подойдет для большинства сайтов. Текст файла, приведенный ниже, полностью работоспособный и может использоваться сразу, достаточно только вставить имя вашего сайта в конце в директиву Sitemap.

User-agent: *
Disallow: /xmlrpc.php
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /tag/
Disallow: /?s=
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/

Sitemap: http://xela.ru/sitemap.xml

Сначала (строки 1-3) скрываем от поисковиков служебные файлы — страницы удаленного постинга, авторизации и регистрации, которые в противном случае они найдут. Затем (строки 4-6) служебные папки с темами, плагинами и т.д. Стоит обратить внимание, что внизу мы откроем доступ к папке картинок директивой «Allow: /wp-content/uploads/», если у вас картинки к статьям лежат в другой папке, то необходимо поменять путь.

Строки, путь в которых начинается с «/wp» можно закрыть при помощи одной директивы — «Disallow: /wp*», но я бы не стал так делать, потому, что эта маска может в будущих версиях закрыть от индексации что-то важное, да и с конкретными путями получается нагляднее.

Далее закрываем тэги — «Disallow: /tag/», чтобы избежать дублирующегося контента и страницу результатов поиска- «Disallow: /?s=» , которая не несет никакой полезной информации для поисковиков и тоже может генерировать лишний неоригинальный контент.

Поисковые роботы, за исключением специализированных, которые ищут по блогам, не понимают фиды и т.п., и выдают ошибки, поэтому закрываем от них непонятные страницы. При этом «блогороботы» наоборот понимают в основном только RSS и игнорируют остальной контент, поэтому для них не нужна отдельная секция в robots.txt, они находят RSS-потоки и на этом их путешествие по сайту заканчивается. Записи «Disallow: /comments/» и «Disallow: */comments/» отличаются друг от друга, в первом случае мы закрываем фид со всеми комментариями, а во втором фиды с комментариями к отдельным статьям.

И, наконец, прописываем путь к файлу sitemap.

Стоит добавить, что при формате ЧПУ-ссылок с датой в начале, нет возможности закрыть от индексации архивы. Для этого я использую плагин All in One SEO Pack, а в нем ставлю noindex для архивов. Но можно поступить и проще, на этом сайте я просто убрал ссылку на архивы.

Ссылки по теме:
пример robots.txt на официальном сайте wordpress.

примеры для различных CMS, правила, рекомендации

Правильная индексация страниц сайта в поисковых системах одна из важных задач, которая стоит перед владельцем ресурса. Попадание в индекс ненужных страниц может привести к понижению документов в выдаче. Для решения таких проблем и был принят стандарт исключений для роботов консорциумом W3C 30 января 1994 года — robots.txt.

Что такое Robots.txt?

Robots.txt — текстовый файл на сайте, содержащий инструкции для роботов какие страницы разрешены для индексации, а какие нет. Но это не является прямыми указаниями для поисковых машин, скорее инструкции несут рекомендательный характер, например, как пишет Google, если на сайт есть внешние ссылки, то страница будет проиндексирована.

На иллюстрации можно увидеть индексацию ресурса без файла Robots.txt и с ним.

Что следует закрывать от индексации:

  • служебные страницы сайта
  • дублирующие документы
  • страницы с приватными данными
  • результат поиска по ресурсу
  • страницы сортировок
  • страницы авторизации и регистрации
  • сравнения товаров

Как создать и добавить Robots.txt на сайт?

Robots.txt обычный текстовый файл, который можно создать в блокноте, следуя синтаксису стандарта, который будет описан ниже. Для одного сайта нужен только один такой файл.

Файл нужно добавить в корневой каталог сайта и он должен быть доступен по адресу: http://www.site.ru/robots.txt

Синтаксис файла robots.txt

Инструкции для поисковых роботов задаются с помощью директив с различными параметрами.

Директива User-agent

С помощью данной директивы можно указать для какого робота поисковой системы будут заданы нижеследующие рекомендации. Файл роботс должен начинаться с этой директивы. Всего официально во всемирной паутине таких роботов 302. Но если не хочется их все перечислять, то можно воспользоваться следующей строчкой:

User-agent: *

Где * является спецсимволом для обозначения любого робота.

Список популярных поисковых роботов:

  • Googlebot — основной робот Google;
  • YandexBot — основной индексирующий робот;
  • Googlebot-Image — робот картинок;
  • YandexImages — робот индексации Яндекс.Картинок;
  • Yandex Metrika — робот Яндекс.Метрики;
  • Yandex Market— робот Яндекс.Маркета;
  • Googlebot-Mobile —индексатор мобильной версии.

Директивы Disallow и Allow

С помощью данных директив можно задавать какие разделы или файлы можно индексировать, а какие не следует.

Disallow — директива для запрета индексации документов на ресурсе. Синтаксис директивы следующий:

Disallow: /site/

В данном примере от поисковиков были закрыты от индексации все страницы из раздела site.ru/site/

Примечание: Если данная директива будет указана пустой, то это означает, что весь сайт открыт для индексации. Если же указать Disallow: / — это закроет весь сайт от индексации.

Директива Sitemap

Если на сайте есть файл описания структуры сайта sitemap.xml, путь к нему можно указать в robots.txt с помощью директивы Sitemap. Если файлов таких несколько, то можно их перечислить в роботсе:

User-agent: *
Disallow: /site/
Allow: /
Sitemap: http://site.com/sitemap1.xml
Sitemap: http://site.com/sitemap2.xml

Директиву можно указать в любой из инструкций для любого робота.

Директива Host

Host является инструкцией непосредственно для робота Яндекса для указания главного зеркала сайта. Данная директива необходима в том случае, если у сайта есть несколько доменов, по которым он доступен. Указывать Host необходимо в секции для роботов Яндекса:

User-agent: Yandex
Disallow: /site/
Host: site.ru

Примечание: Если главным зеркалом сайта является домен с протоколом https, то его нужно указать в роботсе таким образом:
Host: https://site.ru.

В роботсе директива Host учитывается только один раз. Если в файле есть 2 директивы HOST, то роботы Яндекса будут учитывать только первую.

Директива Clean-param

Clean-param дает возможность запретить для индексации страницы сайта, которые формируются с динамическими параметрами. Такие страницы могут содержать один и тот же контент, что будет являться дублями для поисковых систем и может привести к понижению сайта в выдаче.

Директива Clean-param имеет следующий синтаксис:

Clean-param: p1[&p2&p3&p4&..&pn] [Путь к динамическим страницам]

Рассмотрим пример, на сайте есть динамические страницы:

  • https://site.ru/promo-odezhda/polo.html?kol_from=&price_to=&color=7
  • https://site.ru/promo-odezhda/polo.html?kol_from=100&price_to=&color=7

Для того, чтобы исключить подобные страницы из индекса следует задать директиву таким образом:

Clean-param: kol_from1&price_to2&pcolor /polo.html # только для polo.html
или
Clean-param: kol_from1&price_to2&pcolor / # для всех страниц сайта

Директива Crawl-delay

Если роботы поисковиков слишком часто заходят на ресурс, это может повлиять на нагрузку на сервер (актуально для ресурсов с большим количеством страниц). Чтобы снизить нагрузку на сервер, можно воспользоваться директивой Crawl-delay.

Параметром для Crawl-delay является время в секундах, которое указывает роботам, что страницы следует скачивать с сайта не чаще одного раза в указанный период.

Пример использования директивы Crawl-delay:

User-agent: *
Disallow: /site
Crawl-delay: 4

Особенности файла Robots.txt

  • Все директивы указываются с новой строки и не следует перечислять директивы в одной строке
  • Перед директивой не должно быть указано каких-либо других символов (в том числе пробела)
  • Параметры директив необходимо указывать в одну строку
  • Правила в роботс указываются в следующей форме: [Имя_директивы]:[необязательный пробел][значение][необязательный пробел]
  • Параметры не нужно указывать в кавычках или других символах
  • После директив не следует указывать “;”
  • Пустая строка трактуется как конец директивы User-agent, если нет пустой строки перед следующим User-agent, то она может быть проигнорирована
  • В роботс можно указывать комментарии после знака решетки # (даже если комментарий переносится на следующую строку, на след строке тоже следует поставить #)
  • Robots.txt нечувствителен к регистру
  • Если файл роботс имеет вес более 32 Кб или по каким-то причинам недоступен или является пустым, то он воспринимается как Disallow: (можно индексировать все)
  • В директивах «Allow», «Disallow» можно указывать только 1 параметр
  • В директивах «Allow», «Disallow» в параметре директории сайта указываются со слешем (например, Disallow: /site)
  • Использование кириллицы в роботс не допускаются

Спецсимволы robots.txt

При указании параметров в директивах Disallow и Allow разрешается использовать специальные символы * и $, чтобы задавать регулярные выражения. Символ * означает любую последовательность символов (даже пустую).

Пример использования:

User-agent: *
Disallow: /store/*.php # запрещает ‘/store/ex.php’ и ‘/store/test/ex1.php’
Disallow: /*tpl # запрещает не только ‘/tpl’, но и ‘/tpl/user’

По умолчанию у каждой инструкции в роботсе в конце подставляется спецсимвол *. Для того, чтобы отменить * на конце, используется спецсимвол $ (но он не может отменить явно поставленный * на конце).

Пример использования $:

User-agent: *
Disallow: /site$ # запрещено для индексации ‘/site’, но не запрещено’/ex.css’


User-agent: *
Disallow: /site # запрещено для индексации и ‘/site’, и ‘/site.css’

User-agent: *
Disallow: /site$ # запрещен к индексации только ‘/site’
Disallow: /site*$ # так же, как ‘Disallow: /site’ запрещает и /site.css и /site

Особенности настройки robots.txt для Яндекса

Особенностями настройки роботса для Яндекса является только наличие директории Host в инструкциях. Рассмотрим корректный роботс на примере:

User-agent: Yandex
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Disallow: */css
Host: www.site.com

В данном случаем директива Host указывает роботам Яндекса, что главным зеркалом сайта является www.site.com (но данная директива носит рекомендательный характер).

Особенности настройки robots.txt для Google

Для Google особенность лишь состоит в том, что сама компания рекомендует не закрывать от поисковых роботов файлы с css-стилями и js-скриптами. В таком случае, робот примет такой вид:

User-agent: Googlebot
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Allow: *.css
Allow: *.js
Host: www.site.com

С помощью директив Allow роботам Google доступны файлы стилей и скриптов, они не будут проиндексированы поисковой системой.

Проверка правильности настройки роботс

Проверить robots.txt на ошибки можно с помощью инструмента в панели Яндекс.Вебмастера:

Также при помощи данного инструмента можно проверить разрешены или запрещены к индексации страницы:

Еще одним инструментом проверки правильности роботс является “Инструмент проверки файла robots.txt” в панели Google Search Console:

Но данный инструмент доступен только в том случае, если сайт добавлен в панель Вебмастера Google.

Заключение

Robots.txt является важным инструментом управления индексацией сайта поисковыми системами. Очень важно держать его актуальным, и не забывать открывать нужные документы для индексации и закрывать те страницы, которые могут повредить хорошему ранжированию ресурса в выдаче.

Пример настройки роботс для WordPress

Правильный robots.txt для WordPress должен быть составлен таким образом (все, что указано в комментариях не обязательно размещать):

User-agent: Yandex
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Host: www.site.ru

User-agent: Googlebot
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Allow: *.css # открыть все файлы стилей
Allow: *.js # открыть все с js-скриптами

User-agent: *
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap1.xml

Пример настройки роботс для Bitrix

Если сайт работает на движке Битрикс, то могут возникнуть такие проблемы:

  • попадание в выдачу большого количества служебных страниц;
  • индексация дублей страниц сайта.

Чтобы избежать подобных проблем, которые могут повлиять на позицию сайта в выдаче, следует правильно настроить файл robots.txt. Ниже приведен пример robots.txt для CMS 1C-Bitrix:

User-Agent: Yandex
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
HOST: https://site.ru

User-Agent: *
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml

User-Agent: Googlebot
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/tools/conversion/ajax_counter.php
Allow: /bitrix/components/main/
Allow: /bitrix/css/
Allow: /bitrix/templates/comfer/img/logo.png
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml

Пример настройки роботс для OpenCart

Правильный robots.txt для OpenCart должен быть составлен таким образом:

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Host: site.ru

User-agent: Googlebot
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login

Sitemap: http://site.ru/sitemap.xml

Пример настройки роботс для Umi.CMS

Правильный robots.txt для Umi CMS должен быть составлен таким образом (проблемы с дублями страниц в таком случае не должно быть):

User-Agent: Yandex
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs
Host: site.ru

User-Agent: Googlebot
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs
Allow: *.css
Allow: *.js

User-Agent: *
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs

Sitemap: http://site.ru/sitemap.xml

Пример настройки роботс для Joomla

Правильный robots.txt для Джумлы должен быть составлен таким образом:

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Host: www.site.ru

User-agent: Googlebot
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/

Sitemap: http://www.site.ru/sitemap.xml

Robots.txt и WordPress | WP Engine®

Поддержание поисковой оптимизации (SEO) вашего сайта имеет решающее значение для привлечения органического трафика. Однако есть некоторые страницы, такие как дублированный контент или промежуточные области, которые вы не можете захотеть, чтобы пользователи находили через поисковые системы. К счастью, есть способ запретить таким системам, как Google, получать доступ к определенным страницам и отображать их для поисковиков. Редактируя файл robots.txt своего сайта, вы можете контролировать, какой контент будет отображаться на страницах результатов поиска (SERP).

ПРИМЕЧАНИЕ. По умолчанию WP Engine ограничивает трафик поисковых систем на любой сайт, использующий домен install.wpengine.com . Это означает, что поисковые системы не смогут посещать сайты , а не , которые в настоящее время находятся в разработке, с использованием личного домена.


О

Robots.txt

Файл robots.txt содержит инструкции для поисковых систем о том, как находить и извлекать информацию с вашего веб-сайта. Этот процесс называется «сканированием».После того, как страница просканирована, она будет проиндексирована, чтобы поисковая система могла быстро найти и отобразить ее позже.

Первое, что делает сканер поисковой системы, когда попадает на сайт, — это ищет файл robots.txt . Если его нет, он продолжит сканирование остальной части сайта в обычном режиме. Если он найдет этот файл, сканер будет искать в нем какие-либо команды, прежде чем продолжить.

В файле robots.txt можно найти четыре общие команды:

  • Disallow запрещает сканерам поисковых систем проверять и индексировать указанные файлы сайта.Это может помочь вам предотвратить появление в поисковой выдаче дублированного контента, промежуточных областей или других личных файлов.
  • Разрешить разрешает доступ к подпапкам, в то время как родительские папки запрещены.
  • Crawl-delay предписывает поисковым роботам подождать определенное время перед загрузкой файла.
  • Sitemap указывает расположение любых файлов Sitemap, связанных с вашим сайтом.

Файлы Robots.txt всегда форматируются одинаково, чтобы их директивы были понятны:

Каждая директива начинается с определения «агента пользователя», которым обычно является сканер поисковой системы.Если вы хотите, чтобы команда применялась ко всем потенциальным пользовательским агентам, вы можете использовать звездочку (*). Чтобы вместо этого настроить таргетинг на определенный пользовательский агент, вы можете добавить его имя. Например, мы могли бы заменить звездочку выше на «Googlebot», чтобы запретить Google сканирование страницы администратора.

Понимание того, как использовать и редактировать файл robots.txt , имеет жизненно важное значение. Включенные в него директивы будут определять, как поисковые системы взаимодействуют с вашим сайтом. Они могут помочь вам, скрывая контент, от которого вы хотите отвлечь пользователей, что улучшит общее SEO вашего сайта.


Протестируйте файл

Robots.txt

Вы можете проверить, есть ли у вас файл robots.txt , добавив «/robots.txt» в конец URL-адреса вашего сайта в браузере. Это вызовет файл, если он существует. Однако наличие вашего файла не обязательно означает, что он работает правильно.

К счастью, проверить файл robots.txt просто. Вы можете просто скопировать и вставить свой файл в тестер robots.txt .Инструмент выделит все ошибки в файле. Важно отметить, что изменения, внесенные в редактор robots.txt тестера, не будут применяться к фактическому файлу — вам все равно придется отредактировать файл на своем сервере.

Некоторые распространенные ошибки включают запрет на использование файлов CSS или JavaScript, неправильное использование подстановочных знаков, таких как * и $, и случайное запрещение важных страниц. Также важно помнить, что сканеры поисковых систем чувствительны к регистру, поэтому все URL-адреса в вашем файле robots.txt должен появиться так же, как и в вашем браузере.


Создание файла

Robots.txt с подключаемым модулем

Если на вашем сайте отсутствует файл robots.txt , вы можете легко добавить его в WordPress с помощью плагина Yoast SEO. Это избавит вас от необходимости создавать простой текстовый файл и вручную загружать его на сервер. Если вы предпочитаете создать его вручную, перейдите к разделу «Создание файла Robots.txt вручную» ниже.

Перейдите к инструментам Yoast SEO

Для начала вам необходимо установить и активировать плагин Yoast SEO.Затем вы можете перейти на панель администратора WordPress и выбрать SEO > Tools на боковой панели :

Это приведет вас к списку полезных инструментов, к которым пользователи Yoast могут получить доступ для эффективного улучшения своего SEO.

Используйте редактор файлов для создания файла

Robots.txt

Одним из инструментов, доступных в списке, является редактор файлов. Это позволяет вам редактировать файлы, связанные с SEO вашего сайта, в том числе файл robots.txt :

Поскольку на вашем сайте его еще нет, выберите «Создать роботов».txt файл:

Откроется редактор файлов, в котором вы сможете редактировать и сохранять новый файл.

Отредактируйте файл

Robots.txt по умолчанию и сохраните его

По умолчанию новый файл robots.txt , созданный с помощью Yoast, включает директиву, скрывающую вашу папку wp-admin и разрешающую доступ к вашему файлу admin-ajax.php для всех пользовательских агентов. Рекомендуется оставить эту директиву в файле:

Перед сохранением файла вы также можете добавить любые другие директивы, которые хотите включить.В этом примере мы запретили поисковым роботам Bing доступ ко всем нашим файлам, добавили задержку сканирования в десять миллисекунд для поискового робота Yahoo (Slurp) и направили поисковые роботы в расположение нашей карты сайта. Когда вы закончите вносить свои изменения, не забудьте их сохранить!


Руководство

Robots.txt Создание файла

Если вам нужно создать файл robots.txt вручную, процесс так же прост, как создание и загрузка файла на ваш сервер.

  1. Создайте файл с именем robots.txt
    • Убедитесь, что имя написано в нижнем регистре
    • Убедитесь, что расширение — .txt , а не .html
  2. Добавьте в файл любые необходимые директивы и сохраните
  3. Загрузите файл с помощью SFTP или SSH-шлюз в корневой каталог вашего сайта

ПРИМЕЧАНИЕ : Если в корне вашего сайта есть физический файл с именем robots.txt , он перезапишет любой динамически сгенерированный файл robots.txt , созданный с помощью плагин или тема.


Использование файла robots.txt

Файл robots.txt разбит на блоки пользовательским агентом. Внутри блока каждая директива указывается в новой строке. Например:

 Агент пользователя: *
Запретить: /
Пользовательский агент: Googlebot
Запретить:
Пользовательский агент: bingbot
Запретить: / no-bing-crawl /
Запрещено: wp-admin 

Пользовательские агенты обычно сокращаются до более общего имени, но это не требуется .

Значения директивы чувствительны к регистру.

  • URL-адреса no-bing-crawl и No-Bing-Crawl разных .

Глобализация и регулярные выражения не поддерживаются полностью .

  • * в поле User-agent — это специальное значение, означающее «любой робот».

Ограничить доступ всех ботов к вашему сайту

(Все сайты в среде URL-адреса .wpengine.com имеют следующие robots.txt применяется автоматически.)

 Агент пользователя: *
Disallow: / 

Ограничить доступ одного робота ко всей площадке

 Пользовательский агент: BadBotName
Disallow: / 

Ограничить доступ ботов к определенным каталогам и файлам

Пример запрещает ботов на всех страницах wp-admin и странице wp-login.php . Это хороший файл robots.txt по умолчанию или начальный файл .

 Агент пользователя: *
Запретить: / wp-admin /
Запретить: / wp-login.php 

Ограничить доступ бота ко всем файлам определенного типа

В примере используется тип файла .pdf

 Агент пользователя: *
Disallow: /*.pdf$ 

Ограничить конкретную поисковую систему

Пример использования Googlebot-Image в каталоге / wp-content / uploads

 User-Agent: Googlebot-Image
Запретить: / wp-content / uploads / 

Ограничить всех ботов, кроме одного

Пример разрешает только Google

 Пользовательский агент: Google
Запретить:

Пользовательский агент: *
Disallow: / 

Добавление правильных комбинаций директив может быть сложным.К счастью, есть плагины, которые также создают (и тестируют) файл robots.txt за вас. Примеры плагинов:

Если вам нужна дополнительная помощь в настройке правил в файле robots.txt, мы рекомендуем посетить Google Developers или The Web Robots Pages для получения дополнительных инструкций.


Задержка сканирования

Если вы видите слишком высокий трафик ботов и это влияет на производительность сервера, задержка сканирования может быть хорошим вариантом. Задержка сканирования позволяет ограничить время, которое должен пройти бот перед сканированием следующей страницы.

Для настройки задержки сканирования используйте следующую директиву, значение настраивается и указывается в секундах:

 задержка сканирования: 10 

Например, чтобы запретить сканирование всем ботам wp-admin , wp-login.php и установить задержку сканирования для всех ботов на 600 секунд (10 минут):

 Агент пользователя: *
Запретить: /wp-login.php
Запретить: / wp-admin /
Задержка сканирования: 600 

ПРИМЕЧАНИЕ : Службы обхода контента могут иметь свои собственные требования для установки задержки обхода.Как правило, лучше всего напрямую связаться со службой для получения требуемого метода.

Отрегулируйте задержку сканирования для SEMrush

  • SEMrush - отличный сервис, но сканирование может быть очень тяжелым, что в конечном итоге снижает производительность вашего сайта. По умолчанию боты SEMrush игнорируют директивы задержки сканирования в вашем файле robots.txt, поэтому обязательно войдите в их панель управления и включите Уважение задержки сканирования robots.txt .
  • Дополнительную информацию о SEMrush можно найти здесь.

Настроить задержку сканирования Bingbot

  • Bingbot должен соблюдать директивы crawl-delay , однако они также позволяют вам установить шаблон управления сканированием.

Настройте задержку сканирования для Google

Подробнее см. В документации поддержки Google)

Откройте страницу настроек скорости сканирования вашего ресурса.

  • Если ваша скорость сканирования описана как , рассчитанная как оптимальная , единственный способ уменьшить скорость сканирования - это подать специальный запрос.Вы не можете увеличить скорость сканирования .
  • В противном случае , выберите нужный вариант и затем ограничьте скорость сканирования по желанию. Новая скорость сканирования будет действовать в течение 90 дней.

ПРИМЕЧАНИЕ : Хотя эта конфигурация запрещена на нашей платформе, стоит отметить, что задержка сканирования Googlebot не может быть изменена для сайтов, размещенных в подкаталогах, таких как domain.com/blog


Лучшие Лрактики

Прежде всего следует помнить о следующем: непроизводственные сайты должны запрещать использование всех пользовательских агентов.WP Engine автоматически делает это для любых сайтов, использующих домен environmentname .wpengine.com. Только когда вы будете готовы «запустить» свой сайт, вы можете добавить файл robots.txt.

Во-вторых, если вы хотите заблокировать определенного User-Agent, помните, что роботы не обязаны следовать правилам, установленным в вашем файле robots.txt. Лучшей практикой было бы использовать брандмауэр, такой как Sucuri WAF или Cloudflare, который позволяет вам блокировать злоумышленников до того, как они попадут на ваш сайт. Или вы можете обратиться в службу поддержки за дополнительной помощью по блокировке трафика.

Наконец, если у вас очень большая библиотека сообщений и страниц на вашем сайте, Google и другие поисковые системы, индексирующие ваш сайт, могут вызвать проблемы с производительностью. Увеличение срока действия кеша или ограничение скорости сканирования поможет компенсировать это влияние.


СЛЕДУЮЩИЙ ШАГ: устранение ошибок 504

Что такое файлы robots.txt в WordPress и как их использовать

Добавление правил в файл robots.txt

Теперь, когда вы знаете, как создавать и редактировать файл robots.txt, мы можем подробнее поговорить о директивах, которые этот файл может содержать. В robots.txt чаще всего присутствуют две директивы: User-agent и Disallow .

Директива User-agent указывает, к какому боту применяются директивы, перечисленные под директивой User-agent. Вы можете указать одного бота (например, User-agent: Bingbot) или , чтобы директивы применялись ко всем ботам, поставив звездочку (User-agent: *).

Директива Disallow запрещает боту доступ к определенной части вашего веб-сайта. И есть также директива Allow, которая просто делает противоположное . Вам не нужно использовать его так часто, как Disallow, потому что ботам по умолчанию предоставляется доступ к вашему сайту. Директива Allow обычно используется в сочетании с директивой Disallow. Точнее, он служит для разрешения доступа к файлу или подпапке, принадлежащей запрещенной папке.

Кроме того, есть еще две директивы: Crawl-delay и Sitemap . Директива Crawl-delay используется для предотвращения перегрузки сервера из-за чрезмерных запросов сканирования. Однако : эту директиву следует использовать с осторожностью. , поскольку она не поддерживается некоторыми сканерами (например, Googlebot) и по-разному интерпретируется поисковыми роботами, которые ее поддерживают (например, BingBot). Директива Sitemap указывает поисковым системам на ваш XML-файл карты сайта. Настоятельно рекомендуется использовать эту директиву, так как она может помочь вам с отправкой созданной вами карты сайта XML в Google Search Console или Bing Webmaster Tools. Но имейте в виду, что вы должны использовать абсолютный URL-адрес для ссылки на карту сайта (например,грамм. Карта сайта: https://www.example.com/sitemap_index.xml) при использовании этой директивы.

В следующем разделе мы покажем вам два примера фрагментов, чтобы проиллюстрировать использование директив robots.txt, упомянутых выше. Однако это только примеры; в зависимости от вашего веб-сайта вам может потребоваться другой набор директив. С учетом сказанного, давайте взглянем на фрагменты.

User-agent: *
Disallow: / wp-admin /
Allow: /wp-admin/admin-ajax.php

User-Agent: *
Разрешить: / wp-content / uploads /
Запретить: / wp-content / plugins /
Запретить: / wp-admin /
Запретить: / readme.html
Disallow: / refer /

Карта сайта: https://www.example.com/sitemap_index.xml

Оптимизация файла WordPress Robots.txt - Visualmodo

Вы слышали о файле Robots.txt? Если вы знакомы с WordPress, возможно, вы знаете файл Robots. Это имеет очень важное влияние на эффективность SEO вашего сайта. Хорошо оптимизированный файл Robots может улучшить рейтинг вашего сайта в поисковых системах. С другой стороны, неправильно настроенный файл Robots.txt может сильно повлиять на SEO вашего сайта.

WordPress автоматически создает файл Robots.txt для вашего сайта. Но все же нужно предпринять некоторые действия, чтобы как следует его оптимизировать. Есть так много других факторов для SEO, но этот файл неизбежен. Поскольку для его редактирования используется некоторая строка кода, большинство владельцев веб-сайтов не решаются вносить в него изменения. Тебе не о чем беспокоиться. В сегодняшней статье рассказывается о его важности и о том, как оптимизировать файл роботов WordPress для лучшего SEO. Прежде чем двигаться дальше, давайте узнаем несколько фундаментальных вещей.

Что такое файл Robots.txt?

Robots.txt - это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на их веб-сайтах. Кроме того, файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя такие директивы, как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

Robots.txt при использовании WordPress


Я уже говорил, что на каждом сайте WordPress есть файл robots.txt по умолчанию в корневом каталоге. Вы можете проверить свой robots.txt, перейдя на http://yourdomain.com/robots.txt. Например, вы можете проверить наш файл robots.txt здесь: https://visualmodo.com/robots.txt

Если у вас нет файла robots, вам придется его создать. Сделать это очень просто. Просто создайте текстовый файл на своем компьютере и сохраните его как .txt.Наконец, загрузите его в свой корневой каталог. Вы можете загрузить его через FTP-менеджер или файловый менеджер cPanel.

Теперь давайте посмотрим, как отредактировать файл .txt. Вы можете редактировать файл роботов с помощью FTP Manager или cPanel File Manager. Однако это отнимает много времени и немного сложно.

Плагин WordPress для роботов

Лучший способ редактировать файл Robots - использовать плагин. Существует несколько плагинов WordPress .txt. Я предпочитаю Yoast SEO. Это лучший плагин SEO для WordPress.Я уже рассказывал, как настроить Yoast SEO. В результате этот плагин позволяет вам изменять файл роботов из админки WordPress. Однако, если вы не хотите использовать плагин Yoast, вы можете использовать другие плагины, такие как WP Robots Txt. После того, как вы установили и активировали плагин Yoast SEO, перейдите в панель администратора WordPress> SEO> Инструменты.

Затем щелкните «Редактор файлов». после этого вам нужно нажать на «Создать файл robots.txt». Тогда вы получите редактор файла Robots.txt. Здесь вы можете настроить свой файл robots.Перед редактированием файла вам необходимо понять команды файла. В основном есть три команды.

User-agent - определяет имя ботов поисковых систем, таких как Googlebot или Bingbot. Вы можете использовать звездочку (*) для обозначения всех роботов поисковых систем. Запретить - предписывает поисковым системам не сканировать и не индексировать некоторые части вашего сайта. Разрешить - указывает поисковым системам сканировать и индексировать, какие части вы хотите проиндексировать.

Вот образец файла Robots.txt.

Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: /

Этот файл robots дает указание всем роботам поисковых систем сканировать сайт.Во второй строке он сообщает ботам поисковых систем не сканировать / wp-admin / part. В третьей строке он инструктирует роботов поисковых систем сканировать и проверять весь сайт.

Настройки для лучшего SEO

Простая неверная конфигурация файла Robots может полностью деиндексировать ваш сайт в поисковых системах. Например, если вы используете команду «Disallow: /» в файле Robots, ваш сайт будет деиндексирован поисковыми системами. Так что будьте осторожны при настройке.

Еще один важный момент - оптимизация роботов.txt для SEO. Прежде чем перейти к лучшим методам SEO для роботов, я хотел бы предупредить вас о некоторых плохих методах.

  • Файл WordPress Robots для скрытия некачественного содержимого. Лучше всего использовать метатеги noindex и nofollow. Вы можете сделать это с помощью плагина Yoast SEO.
  • Robots.txt, чтобы поисковые системы не индексировали ваши категории, теги, архивы, страницы авторов и т. Д. Вы можете добавить на эти страницы метатеги nofollow и noindex с помощью плагина Yoast SEO.
  • Используйте роботов.txt для обработки дублированного содержимого. Есть и другие способы.

Сделайте файл роботов оптимизированным для SEO.

Во-первых, вам необходимо определить, какие части вашего сайта вы не хотите, чтобы роботы поисковых систем сканировали. Я предпочитаю запретить / wp-admin /, / wp-content / plugins /, /readme.html, / trackback /. Во-вторых, производные «Allow: /» в файле Robots не так важны, так как боты все равно будут сканировать ваш сайт. Но вы можете использовать его для конкретного бота. Добавление карты сайта в файл роботов также является хорошей практикой.Кроме того, прочтите эту статью о картах сайта WordPress.

Вот пример идеального файла .txt для WordPress.

User-agent: *
Disallow: / wp-admin /
Disallow: /readme.html
Allow: /wp-admin/admin-ajax.php

Запретить: / wp-content / plugins /
Разрешить: / wp-content / uploads /

Disallow: / trackback /

Карта сайта: https://visualmodo.com/post-sitemap.xml

Disallow: / go /
Карта сайта: https://visualmodo.com/page-sitemap.xml

Инструменты Google для веб-мастеров Тест роботов WordPress


После обновления файла Robots.txt необходимо протестировать файл Robots.txt, чтобы проверить, не повлияло ли обновление на какой-либо контент.

Вы можете использовать Google Search Console, чтобы проверить, есть ли какие-либо «Ошибка» или «Предупреждение» для вашего файла Robots. Просто войдите в Google Search Console и выберите сайт. Затем перейдите в «Сканирование»> «Тестирование роботов» и нажмите кнопку «Отправить». Появится окно.Просто нажмите кнопку «Отправить».

Наконец, перезагрузите страницу и проверьте, обновлен ли файл. Обновление файла Robots может занять некоторое время. Если он еще не обновлен, вы можете ввести код своего файла Robots в поле, чтобы проверить наличие ошибок или предупреждений. Он покажет там ошибки и предупреждения. Сохранить

Если вы заметили какие-либо ошибки или предупреждения в файле, вы должны исправить это, отредактировав файл robots.

Как создать идеальных роботов.txt для SEO

Все любят «хаки».

Я не исключение - мне нравится находить способы сделать свою жизнь лучше и проще.

Вот почему техника, о которой я расскажу вам сегодня, - одна из моих самых любимых. Это законный SEO-прием, которым вы можете сразу же начать пользоваться.

Это способ улучшить ваше SEO за счет использования естественной части каждого веб-сайта, о которой редко говорят. Реализовать тоже несложно.

Это роботы.txt (также называемый протоколом исключения роботов или стандартом).

Этот крошечный текстовый файл является частью каждого веб-сайта в Интернете, но большинство людей даже не знают о нем.

Он разработан для работы с поисковыми системами, но, что удивительно, это источник сока SEO, который только и ждет, чтобы его разблокировали.

Я видел, как клиент за клиентом отклонялись назад, пытаясь улучшить свое SEO. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они мне почти не верят.

Однако существует множество несложных или трудоемких методов улучшения SEO, и это один из них.

Для использования всех возможностей robots.txt не требуется никакого технического опыта. Если вы можете найти исходный код для своего веб-сайта, вы можете использовать его.

Итак, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить файл robots.txt, чтобы он понравился поисковым системам.

Почему важен файл robots.txt

Во-первых, давайте посмотрим, почему файл robots.txt вообще так важен.

Роботы.txt, также известный как протокол или стандарт исключения роботов, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы вашего сайта сканировать.

Он также сообщает веб-роботам, какие страницы , а не сканировать.

Допустим, поисковая система собирается посетить сайт. Перед посещением целевой страницы он проверяет robots.txt на наличие инструкций.

Существуют разные типы файлов robots.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.

Допустим, поисковая система находит этот пример файла robots.txt:

Это базовый скелет файла robots.txt.

Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.

Косая черта после «Disallow» указывает роботу не посещать никакие страницы сайта.

Вы можете спросить, зачем кому-то мешать веб-роботам посещать свой сайт.

В конце концов, одна из основных целей SEO - заставить поисковые системы легко сканировать ваш сайт, чтобы повысить ваш рейтинг.

Вот где кроется секрет этого SEO-взлома.

У вас наверняка много страниц на сайте? Даже если вы так не думаете, пойдите и проверьте. Вы можете быть удивлены.

Если поисковая система просканирует ваш сайт, она просканирует каждую из ваших страниц.

А если у вас много страниц, боту поисковой системы потребуется некоторое время, чтобы их просканировать, что может отрицательно повлиять на ваш рейтинг.

Это потому, что у Googlebot (робота поисковой системы Google) есть «краулинговый бюджет.”

Он состоит из двух частей. Первый - это ограничение скорости сканирования. Вот как Google объясняет это:

Вторая часть - требование сканирования:

По сути, краулинговый бюджет - это «количество URL-адресов, которые робот Googlebot может и хочет просканировать».

Вы хотите помочь роботу Googlebot оптимально расходовать бюджет сканирования для вашего сайта. Другими словами, он должен сканировать ваши самые ценные страницы.

Есть определенные факторы, которые, по мнению Google, «негативно повлияют на сканирование и индексирование сайта.”

Вот эти факторы:

Итак, вернемся к robots.txt.

Если вы создаете правильную страницу robots.txt, вы можете указать роботам поисковых систем (и особенно роботу Googlebot) избегать определенных страниц.

Подумайте о последствиях. Если вы укажете роботам поисковых систем сканировать только ваш самый полезный контент, они будут сканировать и индексировать ваш сайт только на основе этого контента.

По словам Google:

«Вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил бюджет сканирования на сканирование неважных или похожих страниц вашего сайта.”

Правильно используя robots.txt, вы можете указать роботам поисковых систем разумно расходовать свои краулинговые бюджеты. Именно это делает файл robots.txt таким полезным в контексте SEO.

Заинтригованы силой robots.txt?

Так и должно быть! Поговорим о том, как его найти и использовать.

Поиск файла robots.txt

Если вы просто хотите быстро просмотреть свой файл robots.txt, есть очень простой способ просмотреть его.

На самом деле этот метод будет работать для любого сайта .Так что вы можете заглянуть в файлы других сайтов и увидеть, что они делают.

Все, что вам нужно сделать, это ввести основной URL-адрес сайта в строку поиска вашего браузера (например, neilpatel.com, quicksprout.com и т. Д.). Затем добавьте в конец /robots.txt.

Произойдет одна из трех ситуаций:

1) Вы найдете файл robots.txt.

2) Вы найдете пустой файл.

Например, у Disney не хватает файла robots.txt:

3) Вы получите 404.

Метод возвращает 404 для robots.txt:

Найдите секунду и просмотрите файл robots.txt своего сайта.

Если вы найдете пустой файл или ошибку 404, вы захотите это исправить.

Если вы найдете действительный файл, вероятно, для него установлены настройки по умолчанию, которые были созданы при создании вашего сайта.

Мне особенно нравится этот метод просмотра файлов robots.txt других сайтов. После того, как вы изучите все тонкости robots.txt, это может стать полезным упражнением.

Теперь давайте посмотрим, как на самом деле изменить файл robots.txt.

Поиск файла robots.txt

Ваши следующие шаги будут зависеть от того, есть ли у вас файл robots.txt. (Проверьте, делаете ли вы это, используя метод, описанный выше.)

Если у вас нет файла robots.txt, вам придется создать его с нуля. Откройте текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).

Используйте для этого только текстовый редактор .Если вы используете такие программы, как Microsoft Word, программа может вставлять дополнительный код в текст.

Editpad.org - отличный бесплатный вариант, и вы увидите, что я использую в этой статье.

Вернуться в robots.txt. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.

Если вы не привыкли ковыряться в исходном коде, то найти редактируемую версию файла robots.txt может быть немного сложно.

Обычно вы можете найти свой корневой каталог, перейдя на веб-сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP вашего сайта.

Вы должны увидеть что-то вроде этого:

Найдите файл robots.txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.

Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на yoursite.com/robots.txt, но вы не сможете найти его в своих файлах.

Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет файла robots.txt.

Если это произойдет с вами, вам нужно будет создать новый файл robots.txt файл.

Создание файла robots.txt

Вы можете создать новый файл robots.txt с помощью любого текстового редактора по вашему выбору. (Помните, используйте только текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).

Во-первых, вам нужно познакомиться с некоторым синтаксисом, используемым в файле robots.txt.

У Google есть хорошее объяснение некоторых основных терминов robots.txt:

Я покажу вам, как настроить простого робота.txt, а затем мы рассмотрим, как настроить его для SEO.

Начните с установки термина пользовательского агента. Мы собираемся настроить его так, чтобы он применялся ко всем веб-роботам.

Сделайте это, поставив звездочку после термина пользовательского агента, например:

Затем введите «Disallow:», но после этого ничего не вводите.

Поскольку после запрета нет ничего, веб-роботы будут направлены на сканирование всего вашего сайта. Прямо сейчас все на вашем сайте - это честная игра.

На данный момент ваш файл robots.txt должен выглядеть так:

Я знаю, что это выглядит очень просто, но эти две строчки уже многое делают.

Вы также можете добавить ссылку на свою карту сайта XML, но это не обязательно. Если хотите, вот что нужно набрать:

Вы не поверите, но именно так выглядит базовый файл robots.txt.

А теперь давайте перейдем на новый уровень и превратим этот маленький файл в средство повышения SEO.

Оптимизирующие роботы.txt для SEO

Как вы оптимизируете robots.txt, все зависит от содержания вашего сайта. Есть много способов использовать robots.txt в ваших интересах.

Я рассмотрю некоторые из наиболее распространенных способов его использования.

(Имейте в виду, что вам следует , а не , использовать robots.txt для блокировки страниц от поисковых систем . Это большой запрет)

Одно из лучших применений файла robots.txt - увеличить бюджеты сканирования поисковых систем, запретив им сканировать те части вашего сайта, которые не отображаются для публики.

Например, если вы посетите файл robots.txt для этого сайта (neilpatel.com), вы увидите, что он запрещает страницу входа (wp-admin).

Поскольку эта страница используется только для входа на серверную часть сайта, роботам поисковых систем не имеет смысла тратить свое время на ее сканирование.

(Если у вас WordPress, вы можете использовать ту же самую запрещающую строку.)

Вы можете использовать аналогичную директиву (или команду), чтобы запретить ботам сканировать определенные страницы.После запрета введите часть URL-адреса после .com. Поместите это между двумя косыми чертами.

Итак, если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, введите это:

Вам может быть интересно, какие типы страниц исключить из индексации. Вот несколько распространенных сценариев, в которых это может произойти:

Умышленное дублирование контента. Хотя дублированный контент - это в большинстве случаев плохо, в некоторых случаях это необходимо и приемлемо.

Например, если у вас есть версия страницы для печати, технически у вас дублированное содержимое. В этом случае вы можете сказать ботам, чтобы они не сканировали одну из этих версий (обычно это версия для печати).

Это также удобно, если вы тестируете страницы с одинаковым содержанием, но с разным дизайном.

Страницы с благодарностью. Страница благодарности - одна из любимых страниц маркетологов, потому что она означает нового лида.

… Верно?

Как оказалось, некоторые страницы благодарности доступны через Google .Это означает, что люди могут получить доступ к этим страницам без прохождения процесса захвата лидов, и это плохие новости.

Блокируя страницы с благодарностью, вы можете быть уверены, что их видят только квалифицированные лиды.

Допустим, ваша страница с благодарностью находится по адресу https://yoursite.com/thank-you/. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:

Поскольку не существует универсальных правил для запрещенных страниц, ваш файл robots.txt будет уникальным для вашего сайта.Используйте здесь свое суждение.

Вам следует знать еще две директивы: noindex и nofollow .

Вы знаете эту директиву запрета, которую мы использовали? На самом деле это не препятствует индексации страницы.

Итак, теоретически вы можете запретить страницу, но она все равно может оказаться в индексе.

Как правило, вы этого не хотите.

Вот почему вам нужна директива noindex. Он работает с директивой disallow, чтобы роботы не посещали или , индексируя определенные страницы.

Если у вас есть страницы, которые вы не хотите индексировать (например, эти драгоценные страницы с благодарностью), вы можете использовать директиву disallow и noindex:

Теперь эта страница не будет отображаться в поисковой выдаче.

Наконец, есть директива nofollow. Фактически это то же самое, что и ссылка nofollow. Короче говоря, он сообщает веб-роботам, чтобы они не сканировали ссылки на странице.

Но директива nofollow будет реализована немного иначе, потому что на самом деле она не является частью robots.txt файл.

Однако директива nofollow все еще инструктирует веб-роботов, так что это та же концепция. Единственная разница в том, где это происходит.

Найдите исходный код страницы, которую хотите изменить, и убедитесь, что вы находитесь между тегами .

Затем вставьте эту строку:

Так должно получиться так:

Убедитесь, что вы не помещаете эту строку между другими тегами - только тегами.

Это еще один хороший вариант для страниц с благодарностью, поскольку веб-роботы не будут сканировать ссылки на какие-либо лид-магниты или другой эксклюзивный контент.

Если вы хотите добавить директивы noindex и nofollow, используйте эту строку кода:

Это даст веб-роботам сразу обе директивы.

Проверяем все

Наконец, проверьте файл robots.txt, чтобы убедиться, что все в порядке и работает правильно.

Google предоставляет бесплатный тестер robots.txt как часть инструментов для веб-мастеров.

Сначала войдите в свою учетную запись для веб-мастеров, нажав «Войти» в правом верхнем углу.

Выберите свой ресурс (например, веб-сайт) и нажмите «Сканировать» на левой боковой панели.

Вы увидите «robots.txt Tester». Щелкните по нему.

Если в поле уже есть какой-либо код, удалите его и замените новым файлом robots.txt.

Щелкните «Тест» в правой нижней части экрана.

Если текст «Тест» изменится на «Разрешено», это означает, что ваш robots.txt действителен.

Вот еще немного информации об инструменте, чтобы вы могли подробно узнать, что все означает.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже есть). Теперь у вас есть мощный файл, и ваша видимость в результатах поиска должна повыситься.

Заключение

Мне всегда нравится делиться малоизвестными «хитростями» SEO, которые могут дать вам реальное преимущество сразу несколькими способами.

Правильно настроив файл robots.txt, вы не просто улучшите свой собственный SEO. Вы также помогаете своим посетителям.

Если роботы поисковых систем могут разумно расходовать свои бюджеты сканирования, они будут организовывать и отображать ваш контент в поисковой выдаче наилучшим образом, а это означает, что вы будете более заметны.

Также не требуется много усилий для настройки файла robots.txt. В основном это однократная настройка, и при необходимости вы можете вносить небольшие изменения.

Независимо от того, запускаете ли вы свой первый или пятый сайт, с помощью robots.txt может иметь большое значение. Я рекомендую попробовать, если вы не делали этого раньше.

Каков ваш опыт создания файлов robots.txt?

Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

  • SEO - разблокируйте огромное количество SEO-трафика. Смотрите реальные результаты.
  • Контент-маркетинг - наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
  • Paid Media - эффективные платные стратегии с четкой окупаемостью.

Заказать звонок

Как оптимизировать файл WordPress Robots.txt для SEO | от Visualmodo | visualmodo

Вы оптимизировали свой файл WordPress Robots.txt для SEO? Если вы этого не сделали, вы игнорируете важный аспект SEO. Файл robots.txt играет важную роль в поисковой оптимизации вашего сайта. Вам повезло, что WordPress автоматически создает для вас файл Robots.txt. Наличие этого файла - половина дела. Вы должны убедиться, что файл Robots.txt оптимизирован для получения всех преимуществ.

Файл Robots.txt сообщает роботам поисковых систем, какие страницы сканировать, а какие избегать. В этом посте я покажу вам, как редактировать и оптимизировать файл Robots.txt в WordPress.

Что такое файл Robots.txt?

Начнем с основного. Файл Robots.txt - это текстовый файл, который инструктирует роботов поисковых систем, как сканировать и индексировать сайт. Всякий раз, когда какой-либо бот поисковой системы приходит на ваш сайт, он читает файл robots.txt и следует инструкциям. Используя этот файл, вы можете указать ботам, какую часть вашего сайта сканировать, а какую - избегать.Однако отсутствие файла robots.txt не помешает роботам поисковых систем сканировать и индексировать ваш сайт.

Редактирование и понимание Robots.txt в WordPress

Я уже сказал, что на каждом сайте WordPress есть файл robots.txt по умолчанию в корневом каталоге. Вы можете проверить свой robots.txt, перейдя на http://yourdomain.com/robots.txt. Например, вы можете проверить наш файл robots.txt здесь: https://roadtoblogging.com/robots.txt

. Если у вас нет файла robots.txt, вам придется его создать.Сделать это очень просто. Просто создайте текстовый файл на своем компьютере, сохраните его как robots.txt и загрузите в свой корневой каталог. Вы можете загрузить его через FTP-менеджер или файловый менеджер cPanel.

Теперь давайте посмотрим, как отредактировать файл robots.txt.

Вы можете редактировать файл robots.txt с помощью FTP Manager или cPanel File Manager. Но это отнимает много времени и немного сложно.

Наилучший способ редактировать файл Robots.txt - использовать плагин. Есть несколько плагинов для WordPress robots.txt.Я предпочитаю Yoast SEO. Это лучший плагин SEO для WordPress. Я уже рассказывал, как настроить Yoast SEO.

Yoast SEO позволяет изменять файл robots.txt из области администрирования WordPress. Однако, если вы не хотите использовать плагин Yoast, вы можете использовать другие плагины, такие как WP Robots Txt.

После того, как вы установили и активировали плагин Yoast SEO, перейдите в панель администратора WordPress> SEO> Инструменты.

Затем щелкните «Редактор файлов».

Затем вам нужно нажать на «Создать роботов.txt файл ».

Затем вы получите редактор файла Robots.txt. Здесь вы можете настроить файл robots.txt.

Перед редактированием файла необходимо понять команды файла. В основном есть три команды.

  • User-agent - определяет имя ботов поисковых систем, таких как Googlebot или Bingbot. Вы можете использовать звездочку (*) для обозначения всех роботов поисковых систем.
  • Disallow - Указывает поисковым системам не сканировать и не индексировать некоторые части вашего сайта.
  • Разрешить - дает указание поисковым системам сканировать и индексировать, какие части вы хотите проиндексировать.

Вот образец файла Robots.txt.

 User-agent: * 
Disallow: / wp-admin /
Allow: /

Этот файл robots.txt предписывает всем роботам поисковых систем сканировать сайт. Во второй строке он сообщает ботам поисковых систем не сканировать / wp-admin / part. В третьей строке он инструктирует роботов поисковых систем сканировать и индексировать весь веб-сайт.

Настройка и оптимизация роботов.txt для SEO

Простая неверная конфигурация файла Robots.txt может полностью деиндексировать ваш сайт в поисковых системах. Например, если вы используете команду «Disallow: /» в файле Robots.txt, ваш сайт будет деиндексирован поисковыми системами. Так что будьте осторожны при настройке.

Еще один важный момент - оптимизация файла Robots.txt для SEO. Прежде чем перейти к лучшим методам SEO в Robots.txt, я хотел бы предупредить вас о некоторых плохих методах.

  • Не используйте роботов.txt, чтобы скрыть некачественное содержимое. Лучше всего использовать метатеги noindex и nofollow. Вы можете сделать это с помощью плагина Yoast SEO.
  • Не используйте файл Robots.txt для остановки поисковых систем для индексации ваших категорий, тегов, архивов, страниц авторов и т. Д. Вы можете добавить метатеги nofollow и noindex на эти страницы с помощью плагина Yoast SEO.
  • Не используйте файл Robots.txt для обработки повторяющегося содержания. Есть и другие способы.

Теперь давайте посмотрим, как сделать файл Robots.txt оптимизированным для SEO.

  1. Сначала вам нужно определить, какие части вашего сайта вы не хотите, чтобы роботы поисковых систем сканировали. Я предпочитаю запретить / wp-admin /, / wp-content / plugins /, /readme.html, / trackback /.
  2. Добавление производных «Allow: /» в файл Robots.txt не так важно, поскольку боты все равно будут сканировать ваш сайт. Но вы можете использовать его для конкретного бота.
  3. Добавление карты сайта в файл Robots.txt также является хорошей практикой. Читайте: Как создать карту сайта

Вот пример идеальных роботов.txt для WordPress.

 User-agent: * 
Disallow: / wp-admin /
Disallow: / wp-content / plugins /
Disallow: /readme.html
Disallow: / trackback /
Disallow: / go /
Allow: / wp- admin / admin-ajax.php
Разрешить: / wp-content / uploads /
Карта сайта: https://roadtoblogging.com/post-sitemap.xml
Карта сайта: https://roadtoblogging.com/page-sitemap.xml

Вы можете проверить файл RTB Robots.txt здесь: https://roadtoblogging.com/robots.txt

Testing Robots.txt в Инструментах Google для веб-мастеров

После обновления файла Robots.txt необходимо протестировать файл Robots.txt, чтобы проверить, не повлияло ли обновление на какой-либо контент.

Вы можете использовать Google Search Console, чтобы проверить наличие «ошибок» или «предупреждений» для вашего файла Robots.txt. Просто войдите в Google Search Console и выберите сайт. Затем перейдите в «Сканирование»> «Тестер robots.txt» и нажмите кнопку «Отправить».

Появится окно. Просто нажмите кнопку «Отправить».

Затем перезагрузите страницу и проверьте, обновлен ли файл.Обновление файла Robots.txt может занять некоторое время.

Если он еще не обновлен, вы можете ввести код файла Robots.txt в поле, чтобы проверить наличие ошибок или предупреждений. Он покажет там ошибки и предупреждения.

Если вы заметили какие-либо ошибки или предупреждения в файле robots.txt, вы должны исправить их, отредактировав файл robots.txt.

Последние мысли

Надеюсь, этот пост помог вам оптимизировать ваш файл robots.txt в WordPress. Если у вас есть какие-либо затруднения, не стесняйтесь спрашивать нас в комментариях.

Однако, если вы хотите сделать свой блог на WordPress оптимизированным для SEO, вы можете прочитать нашу публикацию «Как настроить плагин WordPress Yoast SEO».

Если вы найдете этот пост полезным, пожалуйста, помогите мне, поделившись им в Facebook, Twitter или Google+.

Где находится файл robots.txt в WordPress

Где находится файл robots.txt в WordPress? Это вопрос, на который мы собираемся ответить в этом уроке.

Мы расскажем, где его найти, и посмотрим на содержимое файла. С пояснениями к каждой строке, которые помогут вам понять, что она делает.

Обладая этими знаниями, вы можете с уверенностью редактировать файл. Мы также протестируем изменения с помощью инструментов от Google, чтобы убедиться в отсутствии ошибок.

Давайте нырнем.

Что такое Robots.txt?

Боты или поисковые роботы используют файл robots.txt при посещении вашего сайта. Самый важный бот - это Googlebot.

Робот Googlebot посетит ваш сайт и прочитает содержимое ваших страниц. Это добавит их в индекс Google, и затем они появятся в результатах поиска Google.

Вот почему ваш файл robots.txt так важен для вашего SEO.

Если вы сделаете ошибку при редактировании файла robots.txt, это может заблокировать сканирование вашего сайта роботом Googlebot.

Не волнуйтесь, позже мы расскажем, как вы можете протестировать файл robots.txt, чтобы этого не произошло.

Далее, где находится файл robots.txt в WordPress?

Где находится Robots.txt?

Robots.txt - это текстовый файл, который находится в корне веб-сайта. Например, вот роботы.txt для нескольких известных компаний:

Ваш файл robots.txt находится там же, примерно так:

https://example.com/robots.txt

Добавьте /robots.txt после своего доменного имени.

В файле robots.txt по умолчанию в WordPress есть только три правила, он выглядит так:

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

Каждая строка в файле - это правило (директива), которое бот будет читать и следовать ему при посещении сайта.Давайте посмотрим, что делает каждая строка:

  1. Агент пользователя: *

Директива User-agent указывает боту следовать всем приведенным ниже правилам. Двоеточие отделяет директиву от ее значения. В данном случае значение пользовательского агента составляет * . Это подстановочный знак, и он будет соответствовать всем пользовательским агентам.

Что это за пользовательские агенты? Пользовательский агент - это способ, которым бот идентифицирует себя при посещении вашего сайта. Вот список общих пользовательских агентов:

  • Googlebot - используется для поиска Google
  • Bingbot - используется для поиска Bing
  • Slurp - поисковый робот Yahoo
  • DuckDuckBot - используется поисковой системой DuckDuckGo
  • Baiduspider - это китайская поисковая система
  • ЯндексБот - это русская поисковая машина
  • facebot - используется Facebook
  • Pinterestbot - используется Pinterest
  • TwitterBot - используется Twitter

Эти пользовательские агенты можно использовать для создания правил для определенных ботов.Например, вы можете заблокировать Facebot от посещения определенных частей вашего сайта следующим образом:

  Пользовательский агент: facebot
Disallow: / users  

WordPress по умолчанию имеет два правила, которым должны следовать все боты.

  1. Запретить: / wp-admin /

Это директива «Disallow». Это говорит боту, что им не разрешено переходить в определенную область веб-сайта. Значение - / wp-admin / , это папка на веб-сайте. Это означает, что все боты не могут посещать админку сайта WordPress.

  1. Разрешить: /wp-admin/admin-ajax.php

Директива «разрешить» дает доступ к определенной области сайта боту. В последнем правиле мы убрали доступ в админку. Затем это правило дает доступ к одному файлу в этой административной области.

Вам может быть интересно, зачем Google читать этот файл, когда он находится в области администратора.

Некоторые плагины и темы использовали этот файл для загрузки ресурсов веб-страницы, таких как CSS и JavaScript.Если вы запретили использование этого файла, любой плагин, использующий этот файл, не будет работать при посещении Googlebot. Это может помешать отображению страницы в результатах поиска Google.

Не удаляйте и не удаляйте это правило, если вы не знаете, что делаете.

Если вы хотите узнать больше о доступных правилах, ознакомьтесь с другими примерами файлов robots.txt.

Мы знаем, где находится файл robots.txt в WordPress и что он содержит по умолчанию, давайте посмотрим, как мы можем его отредактировать.

Мы рассмотрим два популярных плагина SEO Yoast и All in One SEO. Оба инструмента могут редактировать файл robots.txt.

Если у вас нет одного из этих плагинов, ознакомьтесь с нашим руководством по установке плагинов WordPress.

Как редактировать Robots.txt с помощью Yoast

С установленным Yoast вы можете редактировать файл robots.txt с помощью раздела инструментов. Сначала выберите в меню SEO, а затем выберите инструменты:

Затем на странице инструментов выберите «Редактор файлов» из списка опций:

Выделите роботов.txt и нажмите кнопку «Создать файл robots.txt»:

Это позволит вам редактировать файл. После внесения изменений вы можете нажать «Сохранить», чтобы обновить файл.

Мы еще не закончили, переходите к разделу тестирования вашего robots.txt.

Как редактировать Robots.txt с помощью All in One SEO

Чтобы изменить файл robots.txt с помощью All in One SEO, необходимо сначала активировать эту функцию. Для этого сначала выберите «Все в одном SEO» в боковом меню:

Затем выберите ссылку «диспетчер функций»:

Прокрутите страницу диспетчера функций до robots.txt и нажмите активировать:

После активации функции в меню появится новая опция robots.txt:

После того, как вы выберете его, вы увидите экран, на котором вы можете добавить новые правила:

Эта форма позволит вам добавлять новые правила в файл robots.txt. Вам нужно будет ввести пользовательский агент для таргетинга, а затем правило и путь.

С помощью этого плагина вы не сможете редактировать три исходных правила. Вы можете только добавлять и редактировать новые.

После того, как вы внесли правку, которую хотите проверить, давайте посмотрим на это дальше.

Тестирование Robots.txt с помощью Google

Если вы еще не отправили карту сайта в Google. Это даст вам доступ к инструментам Google Search Console. Одним из таких инструментов является проверка файла robots.txt.

Инструмент загрузит ваш файл robots.txt с вашего веб-сайта. Он будет выделять все найденные ошибки или предупреждения.

Если у вас возникли проблемы с ошибкой, используйте PageDart robots.txt чекер. Скопируйте содержимое файла robots.txt в инструмент и нажмите кнопку «Проверить robots.txt».

В этом примере появляется ошибка «Синтаксис не понят». При нажатии на ссылку вы увидите решение:

Вы увидите эту ошибку, если в строке нет двоеточия.

Это упрощает понимание и исправление.

Вы можете получить уведомление от Google Search Console о том, что они обнаружили ошибку в вашем файле robots.txt.Вы можете получить две ошибки:

Эти статьи должны помочь при возникновении этих ошибок.

Заключение, где находится Robots.txt в WordPress

Мы узнали, где находится robots.txt в WordPress. Вы знаете, что этот файл может находиться в корне веб-сайта, например:

https://example.com/robots.txt

Мы рассмотрели директивы, перечисленные в файле robots.txt по умолчанию. Затем мы рассмотрели, как вы можете использовать два плагина Yoast и All in One SEO для редактирования файла robots.txt файл.

Наконец, мы протестировали изменения, чтобы убедиться, что Google может прочитать файл и ваши веб-страницы.

Как использовать файл Robots.txt с WordPress

Не знаете, как использовать файл robots.txt? Вы не поверите, но это один из самых важных файлов с точки зрения SEO. Вам необходимо использовать файл, чтобы указать, какие разделы вашего сайта должны быть, а какие не должны быть доступны поисковым системам. Например, вам не нужно, чтобы каталог wp-admin сканировался и индексировался поисковыми системами, потому что он предназначен только для внутреннего использования.Robots.txt - это простой текстовый файл (.txt), который следует разместить в корневом каталоге на вашем сервере, что означает, что вам нужно поместить его в ту же папку, где у вас есть файлы и папки вашего веб-сайта на сервере. Вам нужно специально называть его robots.txt. Иначе ничего не получится.

Файл Virtual Robots.txt на WordPress

WordPress использует виртуальный файл robots.txt. Это означает, что вы не найдете его на своем ftp-сервере, если попытаетесь получить к нему доступ для редактирования, потому что он создается динамически каждый раз, когда пользователь посещает ваш сайт.Хотя он будет виден, если вы добавите /robots.txt в URL своего сайта, он будет недоступен на вашем сервере, если вы попытаетесь найти его с помощью ftp-менеджера, такого как CuteFTP, FileZilla или CyberDuck.

Как редактировать Robots.txt с помощью WordPress

Если вы хотите иметь возможность специально редактировать файл robots.txt вручную, вам следует установить плагин WP Robots.txt. Это позволит вам редактировать файл robots.txt прямо в панели управления WordPress. Итак, давайте установим плагин и посмотрим, как он работает.

Как установить плагин WP Robots.txt

  1. Находясь на панели инструментов WordPress, перейдите в раздел «Плагины» и выберите «Добавить новый».
  2. Введите WP Robots.txt в текстовое поле «Поиск» и нажмите кнопку «Поиск подключаемых модулей».
  3. Найдя плагин, просто нажмите ссылку «Установить сейчас». Теперь у вас должно появиться всплывающее окно, которое дважды проверяет, действительно ли вы хотите установить плагин. Просто нажмите ОК.
  4. Теперь выберите опцию «Активировать плагин».
  5. На этом этапе вы можете просто развернуть раскрывающееся меню «Настройки» и выбрать «Чтение оттуда».
  6. Теперь просто найдите текстовое поле «Содержимое файла Robots.txt». Поле содержит содержимое вашего фактического файла Robots.txt.

Содержимое вашего файла WordPress Robots.txt

По умолчанию у вас должен быть аналогичный контент:

 Агент пользователя: *
Запретить: / wp-admin /
Запретить: / wp-includes /
 

Итак, приведенный выше код просто запрещает всем сканерам видеть каталоги / wp-admin / и / wp-includes / на вашем сервере.

Улучшенный контент для ваших роботов.txt

Хотя настройки по умолчанию тоже работают, лучше всего немного изменить их, чтобы ваш файл robots.txt выглядел следующим образом:

 Агент пользователя: *
Запретить: / feed /
Запретить: / trackback /
Запретить: / wp-admin /
Запретить: / wp-content /
Запретить: / wp-includes /
Запретить: /xmlrpc.php
Запретить: / wp-
Разрешить: / wp-content / uploads /
Карта сайта: http://example.com/sitemap.xml
 

В первой строке показано, на какого именно ползучего робота или роботов вы хотите нацелиться.* Означает, что вы нацелены на всех роботов. Другими словами, вы говорите: «Эй, все вы, поисковые роботы, действуйте следующим образом».

Кроме того, вы можете указать на определенные поисковые роботы, такие как Googlebot, Rogerbot и т. Д. Это нужно сделать, если использование звездочки * по той или иной причине не нацелено на конкретного поискового робота.

У меня лично была такая проблема с Роберботом. Вам также может потребоваться явно настроить таргетинг на него. Итак, вместо:

 Агент пользователя: *
 

Вы можете нацелиться конкретно на Moz Rogerbot:

 Агент пользователя: Rogerbot
 

Большая часть приведенного выше кода просто запрещает доступ к указанным каталогам (/ trackback /, / wp-admin / и т. Д.), Потому что содержимое этих каталогов не представляет интереса ни для посетителей вашего сайта, ни для поисковых систем.

 Запретить: / feed /
Запретить: / trackback /
Запретить: / wp-admin /
Запретить: / wp-content /
Запретить: / wp-includes /
Запретить: /xmlrpc.php
Запретить: / wp-
 

Поскольку вы хотите иметь возможность ранжироваться в поисковых системах с помощью контента, который находится в каталоге загрузок (например, изображений и тому подобного), вторая предпоследняя строка обеспечивает доступ к каталогу / wp-content / uploads /.

 Разрешить: / wp-content / uploads /
 

И последняя строка просто указывает на расположение вашей карты сайта.xml, который Google и другие поисковые системы используют для правильного сканирования вашего сайта.

 Карта сайта: http://example.com/sitemap.xml
 

Опасный файл

Неправильная конфигурация вашего файла robots.txt может привести к тому, что он станет полностью невидимым для поисковых систем. Худшая конфигурация будет следующая:

 Запретить: /
 


Приведенный выше код запрещает доступ ко всему вашему сайту. Таким образом, поисковые системы НИЧЕГО не будут индексировать. Просто имейте в виду, что вы не хотите использовать это правило в своих роботах.txt файл.

Шутка для SEO-ботаников

Взгляните на эту шутку про SEO-ботаников. Понятно? Это действительно здорово! 🙂

Эта цыпочка запрещает парню все. Эта шутка может помочь вам лучше понять, как работает disallow: /. Хорошо, пойдем дальше.

Как настроить или синтаксис Robots.txt

Если вы хотите точно настроить параметры robots.txt, вы можете узнать следующее.

Чтобы указать конкретный каталог, просто заключите его имя в косую черту.например / wp-content /.

 Запретить: / wp-content /
 

Чтобы настроить таргетинг на конкретный файл, вам просто нужно определить путь к этому файлу вместе с его именем:

 Запретить: /wp-content/your-file.php
 

Вы можете указать так на все типы файлов:

 Запретить: /wp-content/your-file.html
Запретить: /wp-content/your-file.png
Запретить: /wp-content/your-file.jpeg
Запретить: /wp-content/your-file.css
 

Отключить динамическое индексирование URL-адресов

Скорее всего, вы столкнетесь с этой действительно распространенной проблемой.Возможно, вам потребуется отключить динамическую индексацию URL-адресов. Динамический URL-адрес содержит знак? вопросительный знак. Такие URL-адреса могут вызывать всевозможные проблемы с поисковой оптимизацией (дублированный контент, дублирующийся заголовок страницы и т. Д.), И вы хотите, чтобы поисковые системы не индексировали страницы с такими URL-адресами. Вы легко можете сделать это с помощью robots.txt. Просто добавьте следующую строку:

 Запретить: / *?
 

Скринкаст о Robots.txt для пользователей WordPress

Этот скринкаст представляет собой образец курса SEO, над которым я сейчас работаю.Курс называется ускоренный курс SEO для пользователей WordPress. Если вы хотите быть в курсе, когда он будет запущен, обязательно подпишитесь на мою рассылку в конце сообщения.

Полезные ссылки

Robots.txt: полное руководство


Заключение

Вы просто не можете называть себя оптимизатором поисковых систем или интернет-маркетологом, если вас не устраивает файл robots.txt, потому что он определяет, как поисковые системы видят ваш сайт. Обязательно отредактируйте файл robots.txt, только если вы знаете, что делаете. Иначе ваш сайт может просто исчезнуть из Интернета, и вы даже не узнаете почему.

Существует множество плагинов WordPress, которые позволяют обрабатывать ваш файл robots.txt. Знаете ли вы, что работает лучше, чем плагин WP Robots.txt, о котором я рассказывал в этом посте?

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *