Разное

Как изменить robots txt на сервере: Как настроить robots.txt | REG.RU

09.05.2023

Файл robots txt — основные директивы и инструкция по редактированию в Нубексе

Robots.txt — это текстовый файл, который содержит специальные инструкции для роботов-поисковиков, исследующих ваш сайт в интернете. Такие инструкции — они называются директивами — могут запрещать к индексации некоторые страницы сайта, указывать на правильное «зеркалирование» домена и т.д.

Для сайтов, работающих на платформе «Нубекс», файл с директивами создается автоматически и располагается по адресу domen.ru/robots.txt, где domen.ru — доменное имя сайта. Например, с содержанием файла для сайта nubex.ru можно ознакомиться по адресу nubex.ru/robots.txt.

Изменить robots.txt и прописать дополнительные директивы для поисковиков можно в админке сайта. Для этого на панели управления выберите раздел «Настройки», а в нем — пункт «SEO».

Найдите поле «Текст файла robots.txt» и пропишите в нем нужные директивы. Желательно активировать галочку «Добавить в robots.txt ссылку на автоматически генерируемый файл sitemap.xml»: так поисковый бот сможет загрузить карту сайта и найти все необходимые страницы для индексации.

Не забудьте сохранить страницу после внесения необходимых изменений.

Загружая robots.txt, поисковый робот первым делом ищет запись, начинающуюся с User-agent: значением этого поля должно являться имя робота, которому в этой записи устанавливаются права доступа. Т.е. директива User-agent — это своего рода обращение к роботу.

1. Если в значении поля User-agent указан символ «*», то заданные в этой записи права доступа распространяются на любых поисковых роботов, запросивших файл /robots.txt.

2. Если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.

3. Заглавные или строчные символы роли не играют.

4. Если обнаружена строка User-agent: ИмяБота, директивы для User-agent: * не учитываются (это в том случае, если вы делаете несколько записей для различных роботов). Т.е. робот сначала просканирует текст на наличие записи User-agent: МоеИмя, и если найдет, будет следовать этим указаниям; если нет — будет действовать по инструкциям записи User-agent: * (для всех ботов).

Кстати, перед каждой новой директивой User-agent рекомендуется вставлять пустой перевод строки (Enter).

5. Если строки User-agent: ИмяБота и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Запрет и разрешение индексации сайта: директивы Disallow и Allow

Чтобы запретить или разрешить поисковым ботам доступ к определенным страницам сайта, используются директивы Disallow и Allow соответственно.

В значении этих директив указывается полный или частичный путь к разделу:

  • Disallow: /admin/ — запрещает индексацию всех страниц, находящихся внутри раздела admin;
  • Disallow: /help — запрещает индексацию и /help. html, и /help/index.html;
  • Disallow: /help/ — закрывает только /help/index.html;
  • Disallow: / — блокирует доступ ко всему сайту.

Если значение Disallow не указано, то доступ не ограничен:

  • Disallow: — разрешена индексация всех страниц сайта.

Для настройки исключений можно использовать разрешающую директиву Allow. Например, такая запись запретит роботам индексировать все разделы сайта, кроме тех, путь к которым начинается с /search:

User-agent: *

Allow: /search

Disallow: /

Неважно, в каком порядке будут перечислены директивы запрета и разрешения индексации. При чтении робот все равно рассортирует их по длине префикса URL (от меньшего к большему) и применит последовательно. То есть пример выше в восприятии бота будет выглядеть так:

User-agent: *

Disallow: /

Allow: /search

— разрешено индексировать только страницы, начинающиеся на /search. Таким образом, порядок следования директив никак не повлияет на результат.

Директива Host: как указать основной домен сайта

Если к вашему сайту привязано несколько доменных имен (технические адреса, зеркала и т.д.), поисковик может решить, что все это — разные сайты. Причем с одинаковым наполнением. Решение? В бан! И одному боту известно, какой из доменов будет «наказан» — основной или технический.

Чтобы избежать этой неприятности, нужно сообщить поисковому роботу, по какому из адресов ваш сайт участвует в поиске. Этот адрес будет обозначен как основной, а остальные сформируют группу зеркал вашего сайта.

Сделать это можно с помощью директивы Host. Ее нужно добавить в запись, начинающуюся с User-Agent, непосредственно после директив Disallow и Allow. В значении директивы Host нужно указать основной домен с номером порта (по умолчанию 80). Например:

User-Agent: *

Disallow:

Host: test-o-la-la.ru

Такая запись означает, что сайт будет отображаться в результатах поиска со ссылкой на домен test-o-la-la. ru, а не www.test-o-la-la.ru и s10364.nubex.ru (см. скриншот выше).

В конструкторе «Нубекс» директива Host добавляется в текст файла robots.txt автоматически, когда вы указываете в админке, какой домен является основным.

В тексте robots.txt директива host может использоваться только единожды. Если вы пропишите ее несколько раз, робот воспримет только первую по порядку запись.

Директива Crawl-delay: как задать интервал загрузки страниц

Чтобы обозначить роботу минимальный интервал между окончанием загрузки одной страницы и началом загрузки следующей, используйте директиву Crawl-delay. Ее нужно добавить в запись, начинающуюся с User-Agent, непосредственно после директив Disallow и Allow. В значении директивы укажите время в секундах.

User-Agent: *

Disallow:

Crawl-delay: 3

Использование такой задержки при обработке страниц будет удобным для перегруженных серверов.

Существуют также и другие директивы для поисковых роботов, но пяти описанных — User-Agent, Disallow, Allow, Host и Crawl-delay — обычно достаточно для составления текста файла robots. txt.

Настройка Robots.txt. Подробное руководство

Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt — важная часть SEO-работ по повышению позиций сайта в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

  1. Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

    Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

  2. В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:


Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:


Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

Читайте также Медленные сайты убивают продажи — как это исправить

User-agent

User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:


Disallow

С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.


Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.  


Host — зеркало сайта

Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots. txt будет разный.

Sitemap — карта сайта

Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.


Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».

Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

Проверка Яндекса:

  1. Перейдите по ссылке.
  2. Выберите: Настройка индексирования — Анализ robots.txt.

Проверка Google:

  1. Перейдите по ссылке.
  2. Выберите: Сканирование — Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots. txt на ошибки и внести необходимые настройки, если потребуется.


В заключение приведу 6 главных рекомендаций по работе с файлом Robots.txt:

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Успехов вам!

Видеообзор 3 методов создания и настройки файла Robots.txt



    Хотите, чтобы ваш сайт реально продавал? Готовы работать вместе с нами? Оформите заявку

Как создать файл robots.

txt в cPanel Искать

Содержание

Если вы когда-либо создавали свой веб-сайт, возможно, вы слышали о файле robotx.txt и задавались вопросом, для чего этот файл? Ну, вы в правильном месте! Ниже мы рассмотрим этот файл и его важность.

Что такое файл robots.txt?

Во-первых, robots.txt — это не что иное, как обычный текстовый файл (ASCII или UTF-8), расположенный в корневом каталоге вашего домена , который блокирует (или разрешает) поисковым системам доступ к определенным областям вашего сайта. robots.txt содержит простой набор команд (или директив) и обычно применяется для ограничения трафика поисковых роботов на ваш сервер, что предотвращает нежелательное использование ресурсов.

Поисковые системы используют так называемые сканеры (или боты) для индексации частей веб-сайта и возврата их в качестве результатов поиска. Возможно, вы захотите, чтобы определенные конфиденциальные данные, хранящиеся на вашем сервере, были недоступны для веб-поиска. Файл robots.txt поможет вам сделать это.

Примечание: Файлы или страницы на вашем веб-сайте не удаляются полностью из поисковых роботов, если эти файлы проиндексированы или на них есть ссылки с других веб-сайтов. Чтобы ваш URL не отображался в поисковых системах Google, вы можете защитить файлы паролем прямо с вашего сервера.

Как создать файл robots.txt


Чтобы создать файл robots.txt (если он еще не существует), выполните следующие действия:

1. Войдите в свою учетную запись cPanel

2. Перейдите в раздел ФАЙЛЫ и нажмите Диспетчер файлов

cPanel > Файлы > Диспетчер файлов Файл ” >> Введите «robots.txt» >> Нажмите « Создать новый файл ».

4. Теперь вы можете редактировать содержимое этого файла, дважды щелкнув по нему.

Примечание: можно создать только один r файл obots. txt для каждого домена. Дубликаты не допускаются на одном и том же корневом пути. Каждый домен или субдомен должен содержать собственный файл robots.txt .    

Примеры правил использования и синтаксиса

Обычно файл robots.txt содержит одно или несколько правил, каждое из которых находится в отдельной строке. Каждое правило блокирует или разрешает доступ данному сканеру к указанному пути к файлу или ко всему веб-сайту.

  • Запретить всем сканерам (пользовательским агентам) доступ к каталогам журналов и ssl .
 Агент пользователя:*
Запретить: /журналы/
Запретить: /ssl/ 
  • Заблокировать все поисковые роботы для индексации всего сайта.
 Агент пользователя: *
Disallow: / 
  • Разрешить всем пользовательским агентам доступ ко всему сайту.
 Агент пользователя: *
Разрешить: / 
  • Запретить индексацию всего сайта от определенного поискового робота.
 Агент пользователя: Bot1
Disallow: / 
  • Разрешить индексирование для определенного поискового робота и предотвратить индексирование другими.
 Агент пользователя: Googlebot
Запретить:
Пользовательский агент: *
Disallow: / 
  • Под User-agent вы можете ввести имя конкретного поискового робота. Вы также можете включить все поисковые роботы, просто введя символ звездочки (*). С помощью этой команды вы можете отфильтровать все поисковые роботы, кроме сканеров AdBot, которые необходимо перечислить явно. Вы можете найти список всех сканеров в Интернете.
  • Кроме того, чтобы команды Allow и Disallow работали только для определенного файла или папки, вы всегда должны включать их имена между « / ».
  • Заметили, что обе команды чувствительны к регистру? Особенно важно знать, что по умолчанию агенты сканера имеют доступ к любой странице или каталогу, если они не заблокированы правилом Disallow : .

Примечание: Полные правила и примеры синтаксиса можно найти здесь.

Обновлено 13 января 2023 г.

Была ли эта статья полезной?

Да Нет

Статьи по теме

🔥 Время Супер Экономии!

Получите скидку 65% на хостинг-планы + бесплатный домен и SSL!

👉 Начать сохранение

Редактировать файл robots.txt

Файл robots.txt определяет, как веб-роботы получают доступ и индексируют страницы вашего магазина.

Для получения дополнительной информации о robots.txt и исключение роботов Протокол, посетите www.robotstxt.org.

Если вы запускаете несколько сайтов в одном экземпляре Commerce, каждый сайт имеет свой собственный файл robots.txt . См. Настройка Сайты, чтобы научиться создавать несколько места.

Чтобы просмотреть текущий файл robots.txt вашего магазина:

  1. Введите следующий URL-адрес в адресную строку браузера:

    https://[адрес магазина]/robots.txt

    , где [URL-адрес магазина] — это базовый URL-адрес вашего магазина.

  2. Commerce отображает содержимое текущего файл robots.txt .

Если вы запускаете несколько сайтов и храните языковые версии в каталогах, например, example.com/de/, example.com/es/, вам не нужно создавать отдельный файл robot.txt для каждой версии. Это только случай для нескольких сайтов на поддоменах.

Торговля robots.txt В приведенном ниже файле показан обновленный содержание после того, как эти рекомендации были сделаны:

 Агент пользователя: *
Запретить: /корзина
Запретить: /en/cart
Запретить: /checkout
Запретить: /en/checkout
Запретить: /профиль
Запретить: /ru/профиль
Запретить: /searchresults
Запретить: /en/searchresults
Запретить: /подтверждение
Запретить: /en/confirmation
Запретить: /wishlist_settings
Запретить: /en/wishlist_settings
Запретить: /список желаний
Запретить: /en/wishlist
Карта сайта: http://[URL-адрес магазина]:8080/sitemap. xml 

User-agent: * означает, что правила исключения должны применяться ко всем роботам. Вы можете заменить * (звездочку) на имя конкретного робота, чтобы исключить, например, Googlebot или Bingbot.

Каждая запись Disallow: /[page] указывает на страницу, которую роботы не должны посещать. Не следует удалять какие-либо записи Disallow: из стандартного файла robots.txt , хотя вы можете включить дополнительные страницы, которые вы хотите, чтобы роботы игнорировали. Если вы тестируете свой магазин и не хотите, чтобы какие-либо роботы сканировали какие-либо страницы, вы можете захотеть, чтобы ваш файл robots.txt выглядел следующим образом:

 User-agent: * Disallow: / 

​Если вы планируете использовать свой промежуточный сайт в качестве рабочего сайта при разработке и тестирование завершено, вам нужно будет изменить содержимое в robots.txt к пользовательским настройкам, представленным выше. Если вы проверено на отдельном промежуточном домене, Commerce вводит для вас действительный файл robots.txt по умолчанию для вашего производства. витрина магазина, когда вы выходите в эфир.

Вы не можете редактировать файл robots.txt в пользовательском интерфейсе администратора. Вы должны отредактировать его с помощью REST API коммерческого администратора. См. Использование REST API для получения информации об REST API.

Чтобы обновить файл robots.txt , отправьте запрос PUT на адрес /ccadmin/v1/merchant/robots . Тело запроса должно включать все содержимое файла в текстовом/простом формате.

При обновлении файла robots.txt он не будет перезаписан до тех пор, пока следующий запрос PUT не будет отправлен на адрес /ccadmin/v1/merchant/robots .

Если вы запускаете несколько сайтов в одном экземпляре Commerce, вы должны указать сайт, чей robots.txt файл вы обновление заголовка x-ccsite в запросе PUT. Если вы сделаете не указывать сайт, запрос обновляет сайт по умолчанию файл robots.txt .

В следующем примере показан запрос PUT, который добавляет вашу страницу с ошибкой в ​​список страниц, которые роботы должны игнорировать.

 ПОЛОЖИТЬ /ccadmin/v1/торговец/роботы HTTP/1.1
Content-Type: текстовый/обычный
Авторизация: носитель 
{
Пользовательский агент: *
Запретить: /корзина
Запретить: /checkout
Запретить: /профиль
Запретить: /searchresults
Запретить: /подтверждение
Запретить: /wishlist_settings
Запретить: /список желаний
Запретить: /ошибка
Карта сайта: http://{occs-host}/sitemap. xml} 

Примечание. XML-карта сайта — это индекс URL-адресов страниц в вашем магазине, доступный для сканирования поисковыми системами. Это помогает поисковым системам сканировать ваш сайт более разумно. В созданные карты сайта включаются только те страницы, продукты и коллекции, которые могут просматривать анонимные покупатели (то есть посетители вашего магазина, которые не вошли в систему). Каждый файл sitemap.xml содержит тег , который содержит дату и время последней публикации элемента. Дополнительную информацию см. в разделе Общие сведения о картах сайта XML.

Загрузить пользовательский robots.txt файл

Конечная точка updateRobotsFile позволяет вам загрузить пользовательский robots.txt файл. Однако в предыдущих версиях Commerce при публикации или запуске RobotsManager автоматически заменил этот обычай robots. txt с автоматически сгенерированный. В этом случае было целесообразно связаться со службой поддержки, которые должны были вручную отключить автоматический robots.txt поколение.

В текущей версии Commerce конечная точка updateRobotsFile автоматически отключает автоматическую robots.txt генерация файла. Кроме того, новая конечная точка /ccadmin/v1/merchant/seoConfig позволяет запрашивать или обновлять статус автоматической генерации файла robots.txt .

Понимание страниц результатов внутреннего поиска

Внутренний поиск относится к параметру поиска на вашем собственном веб-сайте при создании страниц результатов внутреннего поиска. Во избежание создания некачественных страниц результаты внутреннего поиска исключаются из сканирования в robots.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *