Файл robots.txt для WordPress в 2023 году: где находится, как настроить
Главная » WordPress
robots.txt — файл с инструкциями для роботов поисковых систем и других сервисов по обходу содержимого вашего сайта. В данной статье речь пойдёт об его применении для WordPress, но описанные принципы применимы для любого движка.
Содержание
- Где находится robots.txt для WordPress
- Как редактировать robots.txt
- Пример robots.txt
- Настройка robots.txt
Где находится robots.txt для WordPress
Сам файл лежит в корне сайта. В зависимости от используемого хостинга эта папка может иметь разное название, но чаще всего она называется public_html.
Пример местоположения файла на скрине.
Если указанного файла на вашем сайте нет, создайте его в любом текстовом редакторе (или скачайте по ссылке в этой статье) и поместите на сервере в корне вашего сайта. Поисковый робот при заходе на ваш сайт в первую очередь ищет именно этот файл, поскольку в нем находятся инструкции для его дальнейшей работы.
В общем сайт может существовать и без него, но, например, яндекс вебмастер расценивает его отсутствие как ошибку.
Некоторые seo-плагины создают виртуальный файл. В этом случае он будет открываться по адресу ваш_сайт/robots.txt, но вы не сможете найти его на хостинге. В этом случае надо искать, какой именно плагин мог его создать. Виртуальный файл — это отличный вариант. Как правило плагины предлагают уже готовый и оптимальный вариант настроек.
Как редактировать robots.txt
Это обычный текстовый файл и редактировать его можно в самом простом редакторе: блокноте и т.п. Обычно виртуальные хостинги предлагают файл-менеджеры. В этом случае вы можете открыть его прямо там и внести необходимые корректировки. На скрине показано, как можно открыть файл для редактирования на хостинге Бегет.
Пример robots.txt
На примере ниже показан простой стандартный вариант. В нем указан запрет индексации служебных папок и результатов поиска.
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /*.css Allow: /*.js Sitemap: https://delaemsait.info/sitemap.xml
1 2 3 4 5 6 7 8 9 10 11 12 13 | User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /*.css Allow: /*.js Sitemap: https://delaemsait.info/sitemap.xml |
Вы можете скачать этот файл по ссылке и взять его за шаблон.
Обратите внимание, что нужно заменить delaemsait.
info на адрес вашего ресурса в последней строке.
Настройка robots.txt
Нельзя говорить о каком-то стандартном или самом правильном robots.txt. Для каждого сайта в нем могут быть свои директивы в зависимости от установленных плагинов и т.д.
Рассмотрим основные применяемые инструкции.
User-Agent означает, что следующие после него инструкции предназначены именно для этого юзерагента. В данном случае под юзерагентом подразумевается название поискового робота. Можно создать разные разделы разных поисковых систем, то есть для Яндекс, Гугл. Универсальные инструкции находятся в блоке со «*».
Директива disallow означает, что адреса страниц, соответствующие указанной после нее маске, не подлежат обходу и индексации. Например, маска /wp-admin закрывает все файлы из служебного каталога wp-admin.
Сайт WP содержит большое количество служебных папок, индексировать которые поисковикам не нужно. Поэтому рекомендуется сделать так, чтобы поисковик не тратил на них ресурсы, а индексировал лишь необходимое.
Команда allow обладает, соответственно, противоположным смыслом и указывает, что эти адреса можно обходить. Рекомендуется открыть файлы js и css, чтобы поисковые системы могли формировать полные страницы (в вышеприведенном примере это есть).
Sitemap указывает на адрес карты сайта, обычно — sitemap.xml. В том случае, если карты сайта у вас нет, ее желательно создать. (Статья о создании карты сайта.)
Существуют сервисы и плагины — генераторы robots.txt по заданным параметрам. Их легко найти в поисковых системах.
Автор Ложников АндрейВремя чтения 3 мин.Просмотры 148Опубликовано
Как создать правильный файл robots.txt для WordPress
Последнее обновление — 19 февраля 2023 в 10:19
Сегодня небольшая заметка о том, как создать файл robots.txt для сайта, работающего на CMS WordPress. Как при помощи входящих в его состав директив управлять поведением поисковых роботов.
Важность наличия роботс на сайте, на мой взгляд, неоспорима. Ведь недаром, WP-разработчики предусмотрели его присутствие в системе по умолчанию, как говорится, “из коробки”.
Содержание:- Что такое robots.txt и где его найти
- Как создать и как корректировать robots.txt
- Основные директивы robots.txt
- Пример правильного robots.txt
- Как проверить robots.txt
- Видео
Что такое robots.txt и где его найти
Robots.txt представляет собой текстовый файл, расположенный в корневой директории сайта, там же, где находится .htaccess и sitemap. xml. Данный файл влияет на индексирование веб-страниц поисковыми системами. При помощи специальных директив он запрещает или разрешает индексировать те или иные записи, это очень удобно.
Как создать и как корректировать robots.txt
Надо отметить, что robots.txt сразу начинает работать по умолчанию, одновременно с установкой WordPress. И, по сути, изначально с ним ничего делать не надо. Если перейти по адресу https://nazvanie-saita.ru/robots.txt, то мы увидим вот такое содержание файлика, рекомендованное разработчиками CMS.
Очевидно, что рекомендовано скрыть от поисковиков раздел админки. Однако, обработчик запросов admin-ajax.php из этой же директории должен быть открыт для индексирования.
Как правило, этого бывает достаточно. Вмешиваться в работу robots.txt следует в том случае, если, к примеру, вебмастер фиксирует наличие дублированного контента. Тогда идут в ход запрещающие директивы Disallow.
Чтобы провести корректировку файла, можно пойти двумя путями. Изменения вносятся либо при помощи создания физического файла, размещаемого в корне сайта, либо включением соответствующей функции плагина.
Я, к примеру, использую СЕО-плагин All in One SEO, в котором реализована возможность внесения изменений в файл robots.txt, включения его в работу. Ранее, у меня был установлен физический файл в корневой директории сайта. Его лучше сразу удалить, если включаем динамический виртуальный robots.txt плагином.
Основные директивы robots.txt
Какие же основные директивы или указания применяются для поисковых систем? Их немного, очень просто запомнить:
Здесь надо отметить, что все вышеперечисленные директивы подходят для всех поисковиков, кроме Clean-param, которую понимает только Яндекс.
Если иным образом не закрыты от индексации системные директории и файлы, а также параметры URL, то их рекомендуется запретить для обхода поисковыми роботами. Это могут быть:
- /wp-admin – админпанель.
- /wp-json – JSON REST API.
- /xmlrpc.php – протокол XML-RPC.
Или, например, такие параметры:
- s – стандартная функция поиска.
- author – личная страница пользователя.
Недавно, в панели Яндекс.Вебмастер я заметил присутствие дублированного контента. Были проиндексированы некоторые URL с параметрами. Для того, чтобы от них избавиться, я включил запрещающую директиву: Disallow: /*?/.
Пример правильного robots.txt
Иногда применяют вариант раздельного содержимого файла robots.txt для более гибкой настройки индексации. То есть, вписывают директивы отдельно для Яндекса и отдельно для остальных поисковиков. Делается это для того, чтобы исключить лишние “телодвижения” поисковых роботов. К примеру, зачем Яндексу сканировать AMP-страницы, которые он не поддерживает?
В этом случае правильный robots.txt может выглядеть следующим образом:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-json
Disallow: /*?
User-agent: Yandex
Allow: /wp-admin/admin-ajax. php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-json
Disallow: /*?
Disallow: /amp
Sitemap: https://vash-supersite/wp-sitemap.xml
Существует возможность ещё более тонкой настройки индексации страниц сайта с параметрами посредством файла robots.txt. Делается это при помощи директивы Clean-param. С ней работает поисковик Яндекс.
Как проверить robots.txt
Правильность работы robots.txt можно проверить в настройках Яндекс.Вебмастер, в разделе “Инструменты”. Здесь можно проверить любую страницу, открыта или закрыта она от индексации.
Кроме того, подобную проверку можно выполнить и в Google, в старой версии Search Console, по ссылке: https://www.google.com/webmasters/tools/robots-testing-tool. В новой версии Search Console, к сожалению, этот функционал пока не реализован.
Видео
Видео, конечно, не по теме. Но лучше, если оно тут будет.
Всем удачи!
Как создать и оптимизировать для SEO
Всякий раз, когда мы говорим о SEO блогов Wp, файл WordPress robots. txt играет важную роль в рейтинге поисковых систем.
Блокирует роботов поисковых систем и помогает индексировать и сканировать важные разделы нашего блога. Хотя иногда неправильно настроенный файл Robots.txt может полностью скрыть ваше присутствие от поисковых систем.
Итак, важно, чтобы при внесении изменений в файл robots.txt он был хорошо оптимизирован и не блокировал доступ к важным частям вашего блога.
Существует множество недоразумений относительно индексации и неиндексации контента в Robots.txt, и мы рассмотрим и этот аспект.
SEO состоит из сотен элементов, и одной из основных частей SEO является Robots.txt. Этот небольшой текстовый файл, находящийся в корне вашего сайта, может помочь в серьезной оптимизации вашего сайта.
Большинство веб-мастеров избегают редактирования файла Robots.txt, но это не так сложно, как убить змею. Любой человек с базовыми знаниями может создать и отредактировать файл Robots, и если вы новичок в этом, этот пост идеально подходит для ваших нужд.
Если на вашем веб-сайте нет файла Robots.txt, вы можете узнать, как это сделать, здесь. Если в вашем блоге/веб-сайте есть файл Robots.txt, но он не оптимизирован, вы можете прочитать этот пост и оптимизировать файл Robots.txt.
Содержание страницы
Что такое WordPress Robots.txt и почему мы должны его использоватьПозвольте мне начать с основ. Во всех поисковых системах есть боты для сканирования сайта. Сканирование и индексирование — это два разных термина, и если вы хотите углубиться в них, вы можете прочитать: Сканирование и индексирование Google.
Когда бот поисковой системы (бот Google, бот Bing, сканеры сторонних поисковых систем) заходит на ваш сайт по ссылке или по ссылке на карту сайта, представленной на панели управления веб-мастером, он переходит по всем ссылкам в вашем блоге, чтобы сканировать и индексировать ваш сайт.
Теперь эти два файла — Sitemap.xml и Robots.txt — находятся в корневом каталоге вашего домена. Как я уже упоминал, боты следуют правилам Robots.txt, чтобы определить сканирование вашего сайта. Вот как используется файл robots.txt:
Когда поисковые роботы заходят на ваш блог, у них ограниченные ресурсы для сканирования вашего сайта. Если они не смогут просканировать все страницы вашего сайта с выделенными ресурсами, они перестанут сканировать, что затруднит вашу индексацию.
Теперь, в то же время, есть много частей вашего веб-сайта, которые вы не хотите, чтобы роботы поисковых систем сканировали. Например, ваша папка WP-admin, ваша панель администратора или другие страницы, которые бесполезны для поисковых систем. Используя Robots.txt, вы указываете поисковым роботам (ботам) не сканировать такие области вашего веб-сайта. Это не только ускорит сканирование вашего блога, но также поможет в глубоком сканировании ваших внутренних страниц.
Самое большое заблуждение о файле Robots.txt заключается в том, что люди используют его для запрета индексации .
Помните, что файл Robots.txt не предназначен для Do Index или Noindex. Это прямой поисковых ботов, чтобы остановить сканирование определенных частей вашего блога . Например, если вы посмотрите на файл ShoutMeLoud Robots.txt (платформа WordPress), вы четко поймете, какую часть моего блога я не хочу сканировать ботами поисковых систем.
Файл Robots.txt помогает роботам поисковых систем и указывает, какую часть следует сканировать, а какую избегать. Когда поисковый бот или паук поисковой системы заходит на ваш сайт и хочет проиндексировать ваш сайт, они сначала следуют файлу Robots.txt. Поисковый бот или паук следует указаниям файла для индексации или не индексации страниц вашего сайта.
Если вы используете WordPress, вы найдете файл Robots.txt в корне вашей установки WordPress.
Для статических веб-сайтов, если вы или ваши разработчики создали их, вы найдете их в корневой папке. Если вы не можете, просто создайте новый файл блокнота и назовите его Robots. txt и загрузите его в корневой каталог вашего домена с помощью FTP.
Вот пример файла Robots.txt, и вы можете увидеть содержимое и его расположение в корне домена.
https://www.shoutmeloud.com/robots.txt