Делаем правильный файл Robots.txt для WordPress
Приветствую вас, друзья. Сегодня я покажу как сделать правильный файл Robots.txt для WordPress блога. Файл Robots является ключевым элементом внутренней оптимизации сайта, так как выступает в роли гида-проводника для поисковых систем, посещающих ваш ресурс — показывает, что нужно включать в поисковый индекс, а что нет.
Содержание:
- Зачем нужен файл robots.txt
- Принцип работы файла robots
- Как создать и проверить robots.txt
- Robots.txt для WordPress
- Дополнения и заблуждения
Само название файла robots.txt подсказываем нам, что он предназначен для роботов, а не для людей. В статье о том, как работают поисковые системы, я описывал алгоритм их работы, если не читали, рекомендую ознакомиться.
Зачем нужен файл robots.txt
Представьте себе, что ваш сайт – это дом. В каждом доме есть разные служебные помещения, типа котельной, кладовки, погреба, в некоторых комнатах есть потаенные уголки (сейф). Все эти тайные пространства гостям видеть не нужно, они предназначены только для хозяев.
Аналогичным образом, каждый сайт имеет свои служебные помещения (разделы), а поисковые роботы – это гости. Так вот, задача правильного robots.txt – закрыть на ключик все служебные разделы сайта и пригласить поисковые системы только в те блоки, которые созданы для внешнего мира.
Примерами таких служебных зон являются – админка сайта, папки с темами оформления, скриптами и т.д.
Вторая функция этого файла – это избавление поисковой выдачи от дублированного контента. Если говорить о WordPress, то, часто, мы можем по разным URL находить одни и те же статьи или их части. Допустим, анонсы статей в разделах с архивами и рубриках идентичны друг другу (только комбинации разные), а страница автора обычного блога на 100% копирует весь контент.
Поисковики интернета могут просто запутаться во всем многообразии таких страниц и неверно понять – что нужно показывать в поисковой выдаче. Закрыв одни разделы, и открыв другие, мы дадим однозначную рекомендацию роботам по правильной индексации сайта, и в поиске окажутся те страницы, которые мы задумывали для пользователей.
Если у вас нет правильно настроенного файла Robots.txt, то возможны 2 варианта:
1. В выдачу попадет каша из всевозможных страниц с сомнительной релевантностью и низкой уникальностью.
2. Поисковик посчитает кашей весь ваш сайт и наложит на него санкции, удалив из выдачи весь сайт или отдельные его части.
Есть у него еще пара функций, о них я расскажу по ходу.
Принцип работы файла robots
Работа файла строится всего на 3-х элементах:
- Выбор поискового робота
- Запрет на индексацию разделов
- Разрешение индексации разделов
1. Как указать поискового робота
С помощью директивы User-agent прописывается имя робота, для которого будут действовать следующие за ней правила. Она используется вот в таком формате:
User-agent: * # для всех роботов
User-agent: имя робота # для конкретного робота
После символа «#» пишутся комментарии, в обработке они не участвуют.
Таким образом, для разных поисковых систем и роботов могут быть заданы разные правила.
Основные роботы, на которые стоит ориентироваться – это yandex и googlebot, они представляют соответствующие поисковики.
2. Как запретить индексацию в Robots.txt
Запрет индексации осуществляется в помощью директивы Disallow. После нее прописывается раздел или элемент сайта, который не должен попадать в поиск. Указывать можно как конкретные папки и документы, так и разделы с определенными признаками.
Если после этой директивы не указать ничего, то робот посчитает, что запретов нет.
Disallow: #запретов нет
Для запрета файлов указываем путь относительного домена.
Disallow: /zapretniy.php #запрет к индексации файла zapretniy.php
Запрет разделов осуществляется аналогичным образом.
Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta
Если нам нужно запретить разные разделы и страницы, содержащие одинаковые признаки, то используем символ «*». Звездочка означает, что на ее месте могут быть любые символы (любые разделы, любой степени вложенности).
Disallow: */*test #будут закрыты все страницы, в адресе которых содержится test
Обратите внимание, что на конце правила звездочка не ставится, считается, что она там есть всегда. Отменить ее можно с помощью знака «$»
Disallow: */*test$ #запрет к индексации всех страниц, оканчивающихся на test
Выражения можно комбинировать, например:
Disallow: /test/*.pdf$ #закрывает все pdf файлы в разделе /test/ и его подразделах.
3. Как разрешить индексацию в Robots.txt
По-умолчанию, все разделы сайта открыты для поисковых роботов. Директива, разрешающая индексацию нужна в тех случаях, когда вам необходимо открыть какой-либо кусочек из блока закрытого директивой disallow.
Для открытия служит директива Allow. К ней применяются те же самые атрибуты. Пример работы может выглядеть вот так:
User-agent: * # для всех роботов Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta Allow: *.pdf$ #разрешает индексировать pdf файлы, даже в разделе /razdel-sajta
Теорию мы изучили, переходим к практике.
Как создать и проверить Robots.txt
Проверить, что содержит ваш файл на данный момент можно в сервисе Яндекса — Проверка Robots.txt. Введете там адрес своего сайта, и он покажет всю информацию.
Если у вас такого файла нет, то необходимо срочного его создать. Открываете текстовый редактор (блокнот, notepad++, akelpad и т.д.), создаете файл с названием robots, заполняете его нужными директивами и сохраняете с txt расширением (ниже я расскажу, как выглядит правильный robots.txt для WordPress).
Дальше, помещаем файл в корневую папку вашего сайта (рядом с index.php) с помощью файлового менеджера вашего хостинга или ftp клиента, например, filezilla (как пользоваться).
Если у вас WordPress и установлен All in One SEO Pack, то в нем все делается прямо из админки, в этой статье я рассказывал как.
Robots.txt для WordPress
Под особенности каждой CMS должен создаваться свой правильный файл, так как конфигурация системы отличается и везде свои служебные папки и документы.
Мой файл robots.txt имеет следующий вид:
User-agent: * Disallow: /wp-admin Disallow: /wp-content Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: /xmlrpc.php Disallow: */feed Disallow: */author Allow: /wp-content/themes/папка_вашей_темы/ Allow: /wp-content/plugins/ Allow: /wp-includes/js/ User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ host: biznessystem.ru Sitemap: https://biznessystem.ru/sitemap.xml
Первый блок действует для всех роботов, так как в строке User-agent стоит «*». Со 2 по 9 строки закрывают служебные разделы самого вордпресс. 10 – удаляет из индекса страницы RSS ленты. 11 – закрывает от индексации авторские страницы.
По последним требованиям поисковиков, необходимо открыть доступ к стилям и скриптам. Для этих целей в 12, 13 и 14 строках прописываем разрешение на индексирование папки с шаблоном сайта, плагинами и Java скриптами.
Дальше у меня идет 2 блока, открывающих доступ к папке с картинками роботам YandexImages и Googlebot-Image. Можно их не выделять отдельно, а разрешающую директиву для папки с картинками перенести выше на 15 строку, чтобы все роботы имели доступ к изображениям сайта.
Если бы я не использовал All-in-One-Seo-Pack, то добавил бы правило, закрывающее архивы (Disallow: */20) и метки (Disallow: */tag).
При использовании стандартного поиска по сайту от WordPress, стоит поставить директиву, закрывающую страницы поиска (Disallow: *?s=). А лучше, настройте Яндекс поиск по сайту, как это сделано на моем блоге.
Обратите внимание на 2 правила:
1. Все директивы для одного робота идут подряд без пропуска строк.
2. Блоки для разных роботов обязательно разделяются пустой строкой.
В самом конце есть директивы, которые мы ранее не рассматривали – это host и sitemap. Обе эти директивы называют межсекционными (можно ставить вне блоков).
Host – указывает главное зеркало ресурса (с 2018 года отменена и больше не используется). Обязательно стоит указать какой домен является главным для вашего сайта – с www или без www. Если у сайта есть еще зеркала, то в их файлах тоже нужно прописать главное. Данную директиву понимает только Яндекс.
Sitemap – это директива, в которой прописывается путь к XML карте вашего сайта. Ее понимают и Гугл и Яндекс.
Дополнения и заблуждения
1. Некоторые вебмастера делают отдельный блок для Яндекса, полностью дублируя общий и добавляя директиву host. Якобы, иначе yandex может не понять. Это лишнее. Мой файл robots.txt известен поисковику давно, и он в нем прекрасно ориентируется, полностью отрабатывая все указания.
2. Можно заменить несколько строк, начинающихся с wp- одной директивой Disallow: /wp-, я не стал такого делать, так как боюсь – вдруг у меня есть статьи, начинающиеся с wp-, если вы уверены, что ваш блог такого не содержит, смело сокращайте код.
3. Переиндексация файла robots.txt проходит не мгновенно, поэтому, ваши изменения поисковики могут заметить лишь спустя пару месяцев.
4. Гугл рекомендует открывать доступ своим ботам к файлам темы оформления и скриптам сайта, пугая вебмастеров возможными санкциями за несоблюдение этого правила. Я провел эксперимент, где оценивал, насколько сильно влияет это требование на позиции сайта в поиске — подробности и результаты эксперимента тут.
Резюме
Правильный файл Robots.txt для WordPress является почти шаблонным документом и его вид одинаков для 99% проектов, созданных на этом движке. Максимум, что требуется для вебмастера — это внести индивидуальные правила для используемого шаблона.
Правильный robots.txt для WordPress, Opencart, Bitrix и Joomla!
Мы подготовили для Вас правильные robots.txt для самых популярных CMS Рунета. Но нужно понимать, что мы исключили лишь общие файлы и страницы. Если на сайте появится Ваш собственный «мусор», его придется убирать самостоятельно.
Ниже все инструкции прописаны для User-agent: Yandex. По желанию Вы можете добавить эти же инструкции и для User-agent: *
Не забывайте вписывать свое главной зеркало и актуальный путь к Вашей sitemap. xml
Для корректной работы на всех сайтах должно быть включено ЧПУ. Поисковые системы любят небольшие читаемые URL, особенно, если они отражают суть страницы.
Выберите свою CMS:
- WordPress
- Joomla!
- MODx
- Bitrix
- Opencart
- DLE
Robots.txt для WordPress
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Joomla!
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*% Disallow: /index.php Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для MODx EVO
User-agent: Yandex Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*? Disallow: /index.php Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Bitrix
User-agent: Yandex Disallow: /bitrix/admin/ Disallow: /admin/ Disallow: /bitrix/ Disallow: /about/pics/ Disallow: /blog/user/ Disallow: /blog/friends/ Disallow: /sitemanager/projects/ Disallow: /partners/list/ Disallow: /support/forum/topic/new/ Disallow: /support/forum/users/ Disallow: /support/forum/user/ Disallow: /support/forum/search/ Disallow: /support/forum/rules/ Disallow: /support/forum/help/ Disallow: /support/forum/pm/ Disallow: /support/forum/subscribe/ Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для Opencart
User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Robots.txt для DLE
User-agent: Yandex Disallow: /engine/go.php Disallow: /engine/download.php Disallow: /user/ Disallow: /newposts/ Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Disallow: /print/ Disallow: /tags/ Disallow: /admin.php?mod=main Disallow: /backup/ Disallow: /engine/ Disallow: /index.php?do=search Disallow: /page/ Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml
Понравилась статья? Сделай репост
Что такое файл Robots.
Txt и нужен ли он вам с WordPress?Большинство владельцев сайтов WordPress слышали о файле robots.txt, но не все знают, что он делает и нужен ли он им. Что это за легкий текстовый файл и почему вас это должно волновать? Нужно ли это современным веб-сайтам? Это руководство для начинающих объясняет все таким образом, что даже неопытный новичок может понять.
Почему он называется файлом robots?
Боты поисковых систем или пауки постоянно сканируют веб-сайты в поисках нового или обновленного содержимого. Наиболее известен робот Googlebot, но все поисковые системы работают одинаково. Файл RoBOTs.txt соответствует стандарту исключения роботов. Все это означает стандарт, по которому веб-сайты общаются с послушными веб-ботами и поисковыми роботами.
Файл robots.txt не является надежным, поскольку менее послушные боты, такие как программы для очистки электронной почты или вредоносные программы, игнорируют его. Это также публично видно. Несмотря на это, этот текстовый файл является бесценным ресурсом для многих сайтов и блогов.
Файл «Делай, как я прошу»
Задача этого крошечного редактируемого файла — контролировать, как веб-боты взаимодействуют с путями к файлам вашего сайта. То, как они сканируют, полностью зависит от вашего файла robots.txt. Это делает его невероятно мощным, но простым инструментом в вашем наборе инструментов для поисковой оптимизации (SEO).
Суммируя два основных варианта использования файла robots.txt, можно сказать следующее:
- Сообщает послушным ботам, какие страницы, файлы или папки следует сканировать и индексировать
- Сообщает совместимым ботам, какие страницы, файлы или папки НЕ сканировать (игнорировать) и index
Таким образом, robots.txt — это первый файл, который поисковый бот ищет, когда попадает на веб-сайт.
Синтаксис и правила robots.txt
Файл robots.txt не исправлен, то есть вы можете открывать и редактировать его для управления правилами. Используется синтаксис robots.txt. Его легко читать, но он должен быть точным для работы. Большинство веб-мастеров копируют нужный им синтаксис и вставляют его в файл, чтобы сэкономить время и избежать опечаток.
Общие правила разрешения/запрета включают:
- Запретить ботам сканирование каталога и всего его содержимого
- Запретить ботам сканирование одной веб-страницы
- Запретить сканирование файлов определенного типа
- Запретить сканирование всего веб-сайта 9 0021 Разрешить доступ только одному названному сканеру
- Разрешить доступ к сайту всем, кроме одного поискового робота
- Блокировать доступ к определенному изображению
- Блокировать все изображения на сайте из результатов поиска изображений
Есть и другие, но вы поняли.
Как читать синтаксис robots.txt
Ваш файл robots.txt содержит как минимум один блок директив (рекомендаций) для инструктирования поисковых роботов. Каждый блок начинается со слов «User-agent», которые относятся к конкретному боту или пауку. Один блок также может адресовать всех ботов поисковых систем, используя подстановочный знак *.
Вот как выглядят часто используемые блоки robots.txt:
Разрешить всем поисковым системам полный доступ:
User-agent: *
Disallow:
Добавление косой черты / после Disallow , блокирует доступ ко всем поисковым системам:
User-agent: *
Disallow: /
Блокировать доступ к одному папка (замените / папку / на настоящее имя):
User-agent: *
Disallow: /folder/
Например, на вашем сайте могут быть фотографии, которые вы не хотите, чтобы поисковые системы индексировали . User-agent: * говорит всем ботам не посещать указанную папку.
Заблокировать доступ к одному файлу (замените ‘ файл ‘ на фактическое имя)
User-agent: *
Disallow: /file.html фактическое имя)
User-agent: *
Disallow: /image.png
Крайне важно правильно использовать файл robots. txt и случайно не блокировать или разрешать доступ к материалам. Различные онлайн-валидаторы позволяют проверить файл на наличие ошибок. Рекомендуется, по крайней мере, отправлять любые новые изменения в ваш файл в тестер Google robots.txt.
Пользовательские агенты общих поисковых систем
Ниже приведен список пользовательских агентов, наиболее часто используемых в файлах robots.txt:
ПОИСКОВАЯ СИСТЕМА
FIELD
Googlebot
Общие
Googlebot-Image
Изображения
Googlebot-Mobile
Mobile
Googlebot-Новости
Новости
Googlebot-Video
Видео
MediaPartners-Google
AdSense
AdsBot-Google
bingbot
Bing
Общие
msnbot
Bing
Общие
msnbot-media
Bing 90 003
Видео и изображения
adidxbot
Bing
Реклама
чавкать
Yahoo!
Общий
Яндекс
Яндекс
Общий
9 0117Baiduspider
Baidu
Общий
baiduspider-image
Baidu
Изображения
Baidu
Mobile
baiduspider-news
Baidu
Новости
Причины для запрета ботов поисковых систем
Чем больше сайт, тем больше времени уходит на его поиск. Googlebot и другие имеют квоту сканирования. Если файлы на веб-сайте превышают эту квоту, бот движется дальше. Он возобновляет сканирование с того места, где оно было остановлено, когда возвращается для следующего сеанса. Чтобы остановить или решить эту проблему, нужно запретить ботам сканировать ненужные файлы для ускорения индексации.
Проблема в том, что боты сканируют все, если им не указано иное. И есть много файлов сайта в более крупных проектах, которые не нуждаются в сканировании. Типичные исключения файлов должны включать папки тем, файлы плагинов, страницы администрирования и другие. Кроме того, на вашем сайте могут быть частные страницы, которые вы не хотите отображать в веб-поиске. Вы также можете запретить доступ к ним.
Вот как может выглядеть типичный файл robots.txt.
Приведенный выше файл Robots.txt дает посещающим ботам 6 четких инструкций:
- Индексировать ВСЕ файлы содержимого WordPress
- Индексировать ВСЕ файлы WordPress
- Не индексировать (запретить) файлы плагинов WordPress
- Запретить доступ к админке WP
- Запретить доступ к этому конкретному файлу readme WP
- Запретить доступ к ссылкам, которые включают /refer/
Последние две строки содержат полные URL-адреса карты сайта в формате XML для сообщений и страниц.
Что следует включить в файл robots.txt?
Поисковые системы индексируют сайты лучше, чем когда-либо. Когда дело доходит до WordPress, Google действительно нужен доступ к папкам, которые блокируют многие веб-мастера. По этой причине я настоятельно рекомендую вам ознакомиться с этой публикацией на сайте Yoast SEO, чтобы ознакомиться с рекомендациями по работе с файлами robots.txt.
Как создать новый файл robots.txt
Вы можете создать новый файл robots.txt в WordPress, если он отсутствует. Есть два способа добиться этого. Один из них — использование популярного плагина Yoast SEO, а другой — ручной подход. Перейдите ко второму способу, если у вас нет и вы не планируете устанавливать плагин YOAST.
#1 Создайте файл robots.txt с помощью плагина Yoast SEO
Войдите в WP Dashboard и перейдите в SEO -> Инструменты из бокового меню.
На экране инструментов щелкните ссылку Редактор файлов .
Нажмите кнопку Создать файл robots.txt .
Генератор файлов Yoast SEO robots.txt добавляет в новый файл некоторые основные правила. Замените их своими, если они не соответствуют тому, что вам нужно. Если вы не уверены, воспользуйтесь правилами, упомянутыми в разделе «Причины запрета поисковых роботов» выше.0003
Когда закончите, нажмите кнопку Сохранить изменения в robots.txt .
#2 Создайте и загрузите файл robots.txt с помощью FTP
Чтобы создать файл robots.txt, откройте Блокнот, введите свои правила и Сохранить как robot.txt. Затем вы загружаете файл в корневой каталог вашего веб-сайта (главную папку) с помощью любого программного обеспечения FTP. Рассмотрите бесплатную программу FileZilla, если у вас ее нет. В моей статье «Использование FTP для установки тем WordPress» есть раздел, если вам нужна помощь в настройке учетной записи FileZilla.
Если вам когда-нибудь понадобится удалить или добавить правила в robots. txt, внесите изменения в локальную копию. Затем вы повторно загружаете измененный файл, чтобы перезаписать файл на сервере.
Какой бы метод вы ни использовали, не забудьте сразу после этого проверить файл с помощью онлайн-тестера. Все они хорошо справляются со своей задачей, но большинство веб-мастеров WordPress предпочитают использовать Google Search Console.
Заключительные комментарии
Теперь вы знаете, что такое файл robots.txt и почему он существует.
Это простой, но мощный инструмент, который дает вам больше возможностей контролировать свои стратегии SEO. Хорошо оптимизированный файл жизненно важен для больших сайтов, поскольку он экономит краулинговый бюджет. Более того, вы можете заблокировать доступ к разделам сайта, которые вы не хотите показывать в результатах поиска.
Хотите изучить WordPress?
WordPress — замечательная платформа для создания веб-сайтов любого типа. Он используется крупными корпорациями и небольшими семейными сайтами.
Файл WordPress и Robots.txt: примеры и рекомендации [издание 2020 г.]
Вопрос : Я использую WordPress и мне интересно, следует ли мне создать файл robots.txt. Я читал в разных местах, что должен, и в других местах, что WordPress создает свой собственный файл robots.txt. Какова реальная история? – Тим, Мэдисон, Висконсин
WordPress и файл Robots.txt: что лучше для вас
Тим, еще один отличный вопрос. Что делать с файлом robots.txt при использовании WordPress?
На этот вопрос есть два ответа. Первый — это короткий и быстрый ответ, а второй — длинный и сложный… вы услышите, как эксперты обсуждают файл WordPress robots.txt до тошноты .
Итак, давайте сначала перейдем к быстрому ответу, а затем посмотрим на «длинный ответ» и завалим вас ссылками, где эксперты обсуждают этот вопрос до посинения.
WordPress и файл Robots.TXT: виртуальный файл robots.txt по умолчанию
Тим, быстрый ответ: ты.
Чтобы просмотреть этот файл, вы можете посетить http://yoursite.com/robots.txt .
Файл должен выглядеть примерно так:
Агент пользователя: * Запретить: /wp-admin/ Запретить: /wp-includes/ Карта сайта: http://yoursite.com/sitemap.xml.gz
Первая строка этого файла, строка «user-agent», представляет собой объявление
Вторая и третья строки этого файла говорят агентам пользователя ( в данном случае все они ) не выполнять поиск в этих конкретных каталогах WordPress, поскольку они не содержат дополнительного контента.
Наконец, строка карты «Карта сайта» информирует ботов о расположении вашего файла карты сайта. Эта строка предположительно полезный и должен быть включен в ваш файл robots.txt. Если вы используете плагин карт сайта Google XML (что вам и следует делать), эта строка будет включена… и разрыв строки после последней строки disallow также должен быть там.
Что делать, если вы не видите файл Robots.Txt?
Тим, у некоторых людей есть эта проблема, поэтому я решил дать ответ и на нее.
Если вы не видите виртуальный файл robots.txt, который должен был создать WordPress, возможно, вы используете устаревшую версию WordPress ИЛИ виртуальный файл robots.txt был вытеснен плагином.
В этом случае вы можете легко создать свой собственный файл robots.txt. Используя приведенный выше пример WordPress, просто скопируйте и вставьте информацию в текстовый файл, назовите его robots.txt, а затем загрузите в корневой каталог. Очевидно, вы хотите изменить yoursite на фактический URL вашего веб-сайта.
Создайте свой собственный Robots.Txt: Примеры
Могут быть случаи, когда вы хотите, чтобы другие каталоги (каталоги, которые, возможно, существуют за пределами вашей среды WordPress) также были запрещены, потому что вы не хотите, чтобы они отображались в результатах поиска.
Это также легко сделать, создав собственный файл robots. txt . Если у вас есть подкаталог вашего веб-сайта, который вы не хотите включать в боты, просто добавьте строку, подобную этой:
. Запретить: /эта директория/
Не забудьте добавить в конце «/» ! Если вы этого не сделаете, он не будет индексировать ничего, начинающееся со слов «thisdirectory».
Будет ли ваш robots.txt перезаписывать виртуальный Robots.txt WordPress?
Да. Если вы загрузите свой собственный файл robots.txt, вы увидите, что он теперь 9-й.0480 активный файл , посетив http://yoursite.com/robots.txt .
Пример Robots.Txt для загрузки
Тим, если вам не нужно запрещать какие-либо другие файлы, подойдет виртуальный файл robots.txt WordPress.
Однако, если вы не видите виртуальный robots.txt или вам нужно создать его вручную, чтобы исключить другие подкаталоги на вашем веб-сайте, используйте следующие строки в качестве шаблона:
Пользовательский агент: * Запретить: /wp-admin/ Запретить: /wp-includes/ Запретить: /subdirdontindex1/ Запретить: /subdirdontindex2/ Карта сайта: http://yoursite. com/sitemap.xml
Приложение: файл WordPress Robots.Txt — исчерпывающее обсуждение
Я считаю, что большинству из вас достаточно упомянутых выше стратегий. Это связано с тем, что «окончательный ответ» не был объявлен со 100% уверенностью, и, за исключением серьезной ошибки, такой как непреднамеренный запрет всего вашего сайта ( это было сделано! ), ваш файл robots.txt должен быть в порядке.
Тем не менее, исчерпывающее обсуждение WordPress и Robots.txt продолжается.
Вот несколько ссылок, в которых обсуждается этот вопрос с кратким описанием каждой ссылки:
Поисковая оптимизация для WordPress: это обсуждение сайта WordPress.org SEO для WordPress, и здесь они представляют рекомендуемый файл robots.txt. Вы, конечно, можете использовать рекомендованный ими файл robots.txt, но в нескольких статьях он был опровергнут из-за того, что он слишком много запрещает.
Руководство по WordPress Robots.txt — что это такое и как его использовать. Подробно изучите файл robots.txt с помощью этого подробного сообщения от Kinsta.com.
Как оптимизировать ваш WordPress Robots.txt для SEOЭтот сайт полностью посвящен WordPress, и в этой статье они уделяют внимание файлу robots.txt со множеством убедительных примеров того, что вы должны и не должны делать.
WordPress robots.txt Пример: Один автор, которого я очень уважаю, поскольку он является создателем лучшего SEO-плагина для WordPress, говорит, что рекомендации WordPress слишком строгие. Он говорит, что единственная строка, которая должна быть в вашем robots.txt, это: «User-agent: *».
WordPress нужен файл robots.txt по умолчанию и многое другое…: Знаете ли вы, что на WordPress.org есть раздел идей ? Что ж, они это делают, и одна из идей — предоставить файл robots.txt по умолчанию. Мне нравится эта идея (хотя она действительно существует с виртуальным robots.txt), и она позволила бы нам всем довольствоваться одним ответом.
Инструменты для создания robots.