Настройка Robots.txt. Подробное руководство
Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.
Зачем нужна настройка robots.txt?
Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.
Настройка robots.txt — важная часть SEO-работ по повышению позиций сайта в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:-
Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.
Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.
-
В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.
Как поисковые роботы видят сайт с robots.txt и без него:
Синтаксис robots.txt
Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:
Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.
User-agent
User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:
Disallow
С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.
Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.
Allow
Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.
Host — зеркало сайта
Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.
Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать.
Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.
Sitemap — карта сайта
Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.
Символы в robots.txt
Символы, применяемые в файле: «/, *, $, #».
- Слэш «/», скрывает от обнаружения различные страницы сайта.
- Звездочка «*» применяется для обозначения любой последовательности символов в файле.
- Знак доллара «$» сдерживает действия знака звездочки. С помощью него, можно запретить содержимое папки, но адрес который содержит папка, разрешить.
- Решетка «#» применяется для комментирования. Робот не учитывает эти записи при сканировании сайта.
Проверка работоспособности после настройки robots.txt
После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.
Проверка Яндекса:
- Перейдите по ссылке.
- Выберите: Настройка индексирования — Анализ robots.txt.
Проверка Google:
- Перейдите по ссылке.
- Выберите: Сканирование — Инструмент проверки файла robots.txt.
Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.
В заключение приведу 6 главных рекомендаций по работе с файлом Robots.txt:
- Содержимое файла необходимо писать прописными буквами.
- В директиве Disallow нужно указывать только один файл или директорию.
- Строка «User-agent» не должна быть пустой.
- User-agent всегда должна идти перед Disallow.
- Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
- Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.
Успехов вам!
Видеообзор 3 методов создания и настройки файла Robots.txt
Как настроить robots.txt | REG.RU
«robots.txt» — это специальный файл, позволяющий настроить порядок индексирования вашего сайта поисковыми роботами.
Вот некоторые настройки, которые можно произвести при помощи «robots.txt»:
- закрыть от индексирования определённые страницы сайта;
- запретить индексацию для конкретных роботов или вовсе закрыть сайт от индексации;
- задать время (интервал) посещения страницы вашего сайта поисковыми роботами.
Настройка robots.txt
Файл «robots.txt» необходимо размещать в каталоге сайта. Если файла не существует, просто создайте его.
Как задать временной интервал обращения поисковых роботов?
Задать временной интервал обращения можно на странице Индексирование — Скорость обхода в Яндекс.Вебмастере. Подробнее читайте на странице справки Яндекса.
Обратите внимание:
— снижать скорость обхода сайта роботом нужно только в том случае, если создается избыточная нагрузка на сервер. В других случаях менять параметр не требуется;
— снижение скорости обхода сайта роботом не влияет на поисковую выдачу в Яндексе.
Как закрыть индексацию папки, URL?
# закрываем индексацию страницы vip.html для Googlebot:
User-agent: Googlebot
Disallow: /vip.html
# закрываем индексацию папки private всеми роботами:
User-agent: *
Disallow: /private/
# разрешаем доступ только к страницам, начинающимся с '/shared' для Yandexbot
User-agent: Yandex
Disallow: /
Allow: /shared
Директива «User-agent» определяет, для какого робота будут работать правила. Можно указать названия конкретных роботов, а можно задать правило для всех роботов.
Как полностью закрыть сайт от индексации?
Для запрета индексации вашего сайта всеми поисковыми роботами добавьте в файл «robots.txt» следующие строки:
User-agent: *
Disallow: /
Примечание
Не все поисковые роботы следуют правилам в «robots.txt». Так, например, «Googlebot» следует запрещающим правилам («Disallow»), но не следует директиве «Crawl-delay». Ограничивать «Googlebot» необходимо через Инструменты для веб-мастеров Google.
Справка Google: О файлах robots.txt
Для робота «YandexBot» максимально возможное ограничение через «robots.txt» составляет 2 секунды. Чтобы указать нужную частоту, с которой робот будет индексировать ваш сайт, воспользуйтесь Яндекс.Вебмастером.
Справка Yandex: Использование robots.txt
Помогла ли вам статья?33 раза уже помогла
Как настроить robots.txt самому
Robots.txt — это текстовый файл, который должен быть на каждом сайте и содержать в себе инструкции для поисковых систем. Простым языком robots.txt — это набор инструкций для поисковых роботов с директивами, что можно индексировать «Allow» или что нельзя «Disallow».
Эти директивы очень важны в первую очередь для исключения из поисковой выдачи ненужных страниц (например вход в систему управления).
Как создать robots.txt
Так как это обычных текстовый файл его можно создать в любом текстовом редакторе, например в блокноте. Главное сохранить его в виде текстового файла с названием robots и расширением .txt Это предельно просто и вопросов не должно возникнуть даже у новичков.
Как правильно настроить robots.txt
Правильная настройка позволит избежать попадания приватной информации с вашего сайта в поисковую выдачу поисковых систем. Но нужно понимать, что это в первую очередь набор инструкций для поисковых систем, а не гарант безопасности. Ели вы хотите правильно настроить robots.txt для вашего сайта, для начала давайте разберемся с правилами и синтаксисом его заполнения.
# | Директива | Что означает |
---|---|---|
1 | User-agent: | Указывает на робота для которого написаны данные правила |
2 | Disallow | Запрещает к индексированию файл, раздел, страницу…. |
3 | Allow | Разрешает индексировать разделы, страницы, документы, фото…. |
4 | Clean-param | Говорит роботу о том, что URL страницы содержит параметры которые не нужно учитывать (например UTM-метки) |
5 | Crawl-delay | Просит робота задать минимальный промежуток времени (в секундах) между загрузкой одной и началом загрузки следующей страницы. |
6 | Host | Указывает на главное зеркало сайта (если сайт работает с ssl сертификатом то обязательно нужно указать https://…..) |
Рассмотрим пример настройки:
User-Agent: * # Параметр * указывает на обращение ко всем.
Disallow: */index.php # Тут мы указываем что во всех директориях запрещены к индексации все файлы index.php
Disallow: /admin/ # Этой директивой мы запрещаем к индексации каталог admin
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.jpeg
Allow: /*.gif
Allow: /*.png # А этими директивами мы разрешаем индексировать все файлы с расширениями .png .gif .js ….
Host: https://top-masters.net #Указываем гловное зеркало нашего сайта
Sitemap: https://top-masters.net/sitemap.xml # Указываем адрес до карты нашего сайта.
В заключении
Файл robots.txt — Один из самых нужных инструментов взаимодействия с поисковыми системами, а так же один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно.
Если у вас есть вопросы — пишите в комментариях. Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Управление robots.txt
Общие правила
Данная вкладка служит для указания общих правил для индексирования сайта поисковыми системами. В поле отображается текущий набор инструкций. Любая из инструкций (кроме User-Agent: *) может быть удалена, если навести на нее курсор мыши и нажать на «крестик». Для генерации инструкций необходимо воспользоваться кнопками, расположенными рядом с полем.
Кнопка | Описание |
---|---|
Стартовый набор | Позволяет задать набор стандартных правил и ограничений (закрываются от индексации административные страницы, личные данные пользователя, отладочная информация).
Если часть стандартного набора уже задана, то будут добавлены только необходимые отсутствующие инструкции. |
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами. |
Интервал между запросами (Crawl-delay) | Служит для указания минимального временного интервала (в сек.) между запросами поискового робота. |
Карта сайта | Позволяет задать ссылку к файлу карты сайта sitemap.xml. |
Яндекс
Настройка правил и ограничений для роботов Яндекса. Настройку можно выполнить как сразу для всех роботов Яндекса (вкладка «Yandex»), так и каждого в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:
Кнопка | Описание |
---|---|
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Важно! Для каждого файла robots.txt обрабатывается только одна директива Host. |
Интервал между запросами (Crawl-delay) | Служит для указания минимального временного интервала (в сек.) между запросами поискового робота. |
Настройка правил и ограничений для роботов Google. Настройка выполняется для каждого робота в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:
Кнопка | Описание |
---|---|
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Важно! Для каждого файла robots.txt обрабатывается только одна директива Host. |
Редактировать
На данной вкладке представлено текстовое поле, в котором можно вручную отредактировать содержимое файла robots.txt.
Смотрите также
© «Битрикс», 2001-2021, «1С-Битрикс», 2021
Наверх
Создание правильного robots.txt в Битрикс
Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.
Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.Что такое robots.txt и для чего он нужен?
Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем (информация Яндекса).В основном он нужен чтобы закрыть от индексации страницы и файлы, которые поисковикам индексировать и, следовательно, добавлять в поисковую выдачу не нужно.
Обычно это технические файлы и страницы, панели администрирования, кабинеты пользователя и дублирующаяся информация, например поиск вашего сайта и др.
Создание базового robots.txt для Битрикс
Частая ошибка начинающих кроется в ручном составлении этого файла. Это делать не нужно.В Битриксе уже есть модуль, отвечающий за файл robots.txt. Его можно найти на странице «Маркетинг -> Поисковая оптимизация -> Настройка robots.txt».
На этой странице есть кнопка для создания базового набора правил под систему Битрикс. Воспользуйтесь ей, чтобы создать все стандартные правила:
Дальше в настройках генерации карты сайта укажите галочку для добавления ее в robots.txt:
После генерации карты сайта путь к ней автоматически добавится в robots.txt.
После этого у вас уже будет хороший базовый набор правил. А дальше уже следует исходить из рекомендаций SEO-специалиста и закрывать (кнопкой «Запретить файл/папку») необходимые страницы. Обычно это страницы поиска, личные кабинеты и другие.
И не забывайте, что вы можете обратиться к нам за продвижением сайта. Мы настроим все правильно и выведем ваш сайт на Битриксе на хорошие позиции.
Как создать файл Robots.txt: настройка, проверка, индексация
В SEO мелочей не бывает. Иногда на продвижение сайта может оказать влияние всего лишь один небольшой файл — Robots.txt. Если вы хотите, чтобы ваш сайт зашел в индекс, чтобы поисковые роботы обошли нужные вам страницы, нужно прописать для них рекомендации.
«Разве это возможно?», — спросите вы. Возможно. Для этого на вашем сайте должен быть файл robots.txt. Как правильно составить файл роботс, настроить и добавить на сайт – разбираемся в этой статье.
Получайте до 18% от расходов на контекст и таргет!Рекомендуем: Click.ru – маркетплейс рекламных платформ:
- Более 2000 рекламных агентств и фрилансеров уже работают с сервисом.
- Подключиться можно самому за 1 день.
- Зарабатывайте с первого потраченного рубля, без начальных ограничений, без входного барьера.
- Выплаты на WebMoney, на карту физическому лицу, реинвестирование в рекламу.
- У вас остаются прямые доступы в рекламные кабинеты, рай для бухгалтерии по документообороту и оплатам.
Читайте также: Как проиндексировать сайт в Яндексе и Google
Что такое robots.txt и для чего нужен
Robots.txt – это обычный текстовый файл, который содержит в себе рекомендации для поисковых роботов: какие страницы нужно сканировать, а какие нет.
Важно: файл должен быть в кодировке UTF-8, иначе поисковые роботы могут его не воспринять.
Зайдет ли в индекс сайт, на котором не будет этого файла? Зайдет, но роботы могут «выхватить» те страницы, наличие которых в результатах поиска нежелательно: например, страницы входа, админпанель, личные страницы пользователей, сайты-зеркала и т.п. Все это считается «поисковым мусором»:
Если в результаты поиска попадёт личная информация, можете пострадать и вы, и сайт. Ещё один момент – без этого файла индексация сайта будет проходить дольше.
В файле Robots.txt можно задать три типа команд для поисковых пауков:
- сканирование запрещено;
- сканирование разрешено;
- сканирование разрешено частично.
Все это прописывается с помощью директив.
Как создать правильный файл Robots.txt для сайта
Файл Robots.txt можно создать просто в программе «Блокнот», которая по умолчанию есть на любом компьютере. Прописывание файла займет даже у новичка максимум полчаса времени (если знать команды).
Также можно использовать другие программы – Notepad, например. Есть и онлайн сервисы, которые могут сгенерировать файл автоматически. Например, такие как CY-PR.com или Mediasova.
Вам просто нужно указать адрес своего сайта, для каких поисковых систем нужно задать правила, главное зеркало (с www или без). Дальше сервис всё сделает сам.
Лично я предпочитаю старый «дедовский» способ – прописать файл вручную в блокноте. Есть ещё и «ленивый способ» — озадачить этим своего разработчика 🙂 Но даже в таком случае вы должны проверить, правильно ли там всё прописано. Поэтому давайте разберемся, как составить этот самый файл, и где он должен находиться.
Это интересно: Как увеличить посещаемость сайта
Где должен находиться файл Robots
Готовый файл Robots.txt должен находиться в корневой папке сайта. Просто файл, без папки:
Хотите проверить, есть ли он на вашем сайте? Вбейте в адресную строку адрес: site.ru/robots.txt. Вам откроется вот такая страничка (если файл есть):
Файл состоит из нескольких блоков, отделённых отступом. В каждом блоке – рекомендации для поисковых роботов разных поисковых систем (плюс блок с общими правилами для всех), и отдельный блок со ссылками на карту сайта – Sitemap.
Внутри блока с правилами для одного поискового робота отступы делать не нужно.
Каждый блок начинается директивой User-agent.
После каждой директивы ставится знак «:» (двоеточие), пробел, после которого указывается значение (например, какую страницу закрыть от индексации).
Нужно указывать относительные адреса страниц, а не абсолютные. Относительные – это без «www.site.ru». Например, вам нужно запретить к индексации страницу www.site.ru/shop. Значит после двоеточия ставим пробел, слэш и «shop»:
Disallow: /shop.
Звездочка (*) обозначает любой набор символов.
Знак доллара ($) – конец строки.
Вы можете решить – зачем писать файл с нуля, если его можно открыть на любом сайте и просто скопировать себе?
Для каждого сайта нужно прописывать уникальные правила. Нужно учесть особенности CMS. Например, та же админпанель находится по адресу /wp-admin на движке WordPress, на другом адрес будет отличаться. То же самое с адресами отдельных страниц, с картой сайта и прочим.
Читайте также: Как найти и удалить дубли страниц на сайте
Настройка файла Robots.txt: индексация, главное зеркало, диррективы
Как вы уже видели на скриншоте, первой идет директива User-agent. Она указывает, для какого поискового робота будут идти правила ниже.
User-agent: * — правила для всех поисковых роботов, то есть любой поисковой системы (Google, Yandex, Bing, Рамблер и т.п.).
User-agent: Googlebot – указывает на правила для поискового паука Google.
User-agent: Yandex – правила для поискового робота Яндекс.
Для какого поискового робота прописывать правила первым, нет никакой разницы. Но обычно сначала пишут рекомендации для всех роботов.
Рекомендации для каждого робота, как я уже писала, отделяются отступом.
Disallow: Запрет на индексацию
Чтобы запретить индексацию сайта в целом или отдельных страниц, используется директива Disallow.
Например, вы можете полностью закрыть сайт от индексации (если ресурс находится на доработке, и вы не хотите, чтобы он попал в выдачу в таком состоянии). Для этого нужно прописать следующее:
User-agent: *
Disallow: /
Таким образом всем поисковым роботам запрещено индексировать контент на сайте.
А вот так можно открыть сайт для индексации:
User-agent: *
Disallow:
Потому проверьте, стоит ли слеш после директивы Disallow, если хотите закрыть сайт. Если хотите потом его открыть – не забудьте снять правило (а такое часто случается).
Чтобы закрыть от индексации отдельные страницы, нужно указать их адрес. Я уже писала, как это делается:
User-agent: *
Disallow: /wp-admin
Таким образом на сайте закрыли от сторонних взглядов админпанель.
Что нужно закрывать от индексации в обязательном порядке:
- административную панель;
- личные страницы пользователей;
- корзины;
- результаты поиска по сайту;
- страницы входа, регистрации, авторизации.
Можно закрыть от индексации и отдельные типы файлов. Допустим, у вас на сайте есть некоторые .pdf-файлы, индексация которых нежелательна. А поисковые роботы очень легко сканируют залитые на сайт файлы. Закрыть их от индексации можно следующим образом:
User-agent: *
Disallow: /*. pdf$
Как отрыть сайт для индексации
Даже при полностью закрытом от индексации сайте можно открыть роботам путь к определённым файлам или страницам. Допустим, вы переделываете сайт, но каталог с услугами остается нетронутым. Вы можете направить поисковых роботов туда, чтобы они продолжали индексировать раздел. Для этого используется директива Allow:
User-agent: *
Allow: /uslugi
Disallow: /
Главное зеркало сайта
До 20 марта 2018 года в файле robots.txt для поискового робота Яндекс нужно было указывать главное зеркало сайта через директиву Host. Сейчас этого делать не нужно – достаточно настроить постраничный 301-редирект.
Что такое главное зеркало? Это какой адрес вашего сайта является главным – с www или без. Если не настроить редирект, то оба сайта будут проиндексированы, то есть, будут дубли всех страниц.
Карта сайта: robots.txt sitemap
После того, как прописаны все директивы для роботов, необходимо указать путь к Sitemap. Карта сайта показывает роботам, что все URL, которые нужно проиндексировать, находятся по определённому адресу. Например:
Sitemap: site.ru/sitemap.xml
Когда робот будет обходить сайт, он будет видеть, какие изменения вносились в этот файл. В итоге новые страницы будут индексироваться быстрее.
Читайте по теме: Как сделать карту сайта
Директива Clean-param
В 2009 году Яндекс ввел новую директиву – Clean-param. С ее помощью можно описать динамические параметры, которые не влияют на содержание страниц. Чаще всего данная директива используется на форумах. Тут возникает много мусора, например id сессии, параметры сортировки. Если прописать данную директиву, поисковый робот Яндекса не будет многократно загружать информацию, которая дублируется.
Прописать эту директиву можно в любом месте файла robots.txt.
Параметры, которые роботу не нужно учитывать, перечисляются в первой части значения через знак &:
Clean-param: sid&sort /forum/viewforum.php
Эта директива позволяет избежать дублей страниц с динамическими адресами (которые содержат знак вопроса).
Директива Crawl-delay
Эта директива придёт на помощь тем, у кого слабый сервер.
Приход поискового робота – это дополнительная нагрузка на сервер. Если у вас высокая посещаемость сайта, то ресурс может попросту не выдержать и «лечь». В итоге робот получит сообщение об ошибке 5хх. Если такая ситуация будет повторяться постоянно, сайт может быть признан поисковой системой нерабочим.
Представьте, что вы работаете, и параллельно вам приходится постоянно отвечать на звонки. Ваша продуктивность в таком случае падает.
Так же и с сервером.
Вернемся к директиве. Crawl-delay позволяет задать задержку сканирования страниц сайта с целью снизить нагрузку на сервер. Другими словами, вы задаете период, через который будут загружаться страницы сайта. Указывается данный параметр в секундах, целым числом:
Crawl-delay: 2
Комментарии в robots.txt
Бывают случаи, когда вам нужно оставить в файле комментарий для других вебмастеров. Например, если ресурс передаётся в работу другой команде или если над сайтом работает целая команда.
В этом файле, как и во всех других, можно оставлять комментарии для других разработчиков.
Делается это просто – перед сообщением нужно поставить знак решетки: «#». Дальше вы можете писать свое примечание, робот не будет учитывать написанное:
User-agent: *
Disallow: /*. xls$
#закрыл прайсы от индексации
Как проверить файл robots.txt
После того, как файл написан, нужно узнать, правильно ли. Для этого вы можете использовать инструменты от Яндекс и Google.
Через Яндекс.Вебмастер robots.txt можно проверить на вкладке «Инструменты – Анализ robots.txt»:
На открывшейся странице указываем адрес проверяемого сайта, а в поле снизу вставляем содержимое своего файла. Затем нажимаем «Проверить». Сервис проверит ваш файл и укажет на возможные ошибки:
Также можно проверить файл robots.txt через Google Search Console, если у вас подтверждены права на сайт.
Для этого в панели инструментов выбираем «Сканирование – Инструмент проверки файла robots.txt».
На странице проверки вам тоже нужно будет скопировать и вставить содержимое файла, затем указать адрес сайта:
Потом нажимаете «Проверить» — и все. Система укажет ошибки или выдаст предупреждения.
Останется только внести необходимые правки.
Если в файле присутствуют какие-то ошибки, или появятся со временем (например, после какого-то очередного изменения), инструменты для вебмастеров будут присылать вам уведомления об этом. Извещение вы увидите сразу, как войдете в консоль.
Это интересно: 20 самых распространённых ошибок, которые убивают ваш сайт
Частые ошибки в заполнении файла robots.txt
Какие же ошибки чаще всего допускают вебмастера или владельцы ресурсов?
1. Файла вообще нет. Это встречается чаще всего, и выявляется при SEO-аудите ресурса. Как правило, на тот момент уже заметно, что сайт индексируется не так быстро, как хотелось бы, или в индекс попали мусорные страницы.
2. Перечисление нескольких папок или директорий в одной инструкции. То есть вот так:
Allow: /catalog /uslugi /shop
Называется «зачем писать больше…». В таком случае робот вообще не знает, что ему можно индексировать. Каждая инструкция должна иди с новой строки, запрет или разрешение на индексацию каждой папки или страницы – это отдельная рекомендация.
3. Разные регистры. Название файла должно быть с маленькой буквы и написано маленькими буквами – никакого капса. То же самое касается и инструкций: каждая с большой буквы, все остальное – маленькими. Если вы напишете капсом, это будет считаться уже совсем другой директивой.
4. Пустой User-agent. Нужно обязательно указать, для какой поисковой системы идет набор правил. Если для всех – ставим звездочку, но никак нельзя оставлять пустое место.
5. Забыли открыть ресурс для индексации после всех работ – просто не убрали слеш после Disallow.
6. Лишние звездочки, пробелы, другие знаки. Это просто невнимательность.
Регулярно заглядывайте в инструменты для вебмастеров и вовремя исправляйте возможные ошибки в своем файле robots.txt.
Удачного вам продвижения!
Настройка файла robots.txt: описание главных директив
Краткое содержание статьи:
Robots.txt — текстовый файл, расположенный в корневой папке сайта. В нём хранятся параметры индексирования ресурса, которые считываются роботами поиска. Открывается файл по запросу www.сайт.ru/ robots.txt.
Даже незначительные погрешности в robots способны отразиться на индексации сайта, не исключено даже абсолютное изъятие из поиска. Поэтому нельзя игнорировать такие текстовые файлы, а ещё обязательно изучите подробный чек-лист для проведения аудита интернет ресурса.
Предназначение robots.txt
Этот файл настраивается для того, чтобы роботы поиска могли адекватно воспринимать сайт. В нем прописывается тип контента и существенные правила запретов и разрешений на определённые страницы ресурса.
Robots.txt запрещает или разрешает доступ к файлам определённого вида:
- Текстовые файлы — это html страницы, на которых размещается разнообразная информация. Например, можно закрыть дубли страниц, архивные материалы или профильные страницы.
- Графические файлы — это картинки сайта. Отдельные элементы легко закрываются от индекса.
- Файлы ресурсов — это скрипты, файлы стилей CSS, js. Но с ними нужно работать осторожно.
Как же работает robots.txt? Всё просто: робот заходит на сайт, сначала знакомится с рекомендациями роботс, только потом начинает индексирование.
Описание директив в robots.txt
Робот анализирует документ и следует им указаниям. Именно поэтому нужно разобраться с тем, какие директивы можно и нужно указывать в robots.txt.
User-agent
С помощью этой команды задаётся имя робота, именно им будут использовать все рекомендации этого файла. В интернете числится более трёхсот роботов (Googlebot-Video, AdsBot-Google, YandexBlogs и так далее). Перечислять каждого будет проблематично.
Для упрощения используется директива User-agent: *, где символ * означает, что рекомендации роботс предназначены для всех существующих роботов поиска.
Disallow и Allow
Disallow — основная команда, на которую активно реагируют поисковики. Именно с её помощью вы разрешаете или запрещаете индекс определённых страниц. Верным написанием считается вариант Disallow:.
Если после знака : вы поставите символ /, то можете закрыть весь сайт от индексации. Именно поэтому с этой директивой нужно работать осторожно и без спешки.
Рассмотрим частые команды, которые используются веб-мастерами для создания файла роботс:
- Disallow: /papka/ — запрет на индексирование определённой папки ресурса;
- Disallow: /images/img.jpg — закрытие от индексации определённого файла;
- Disallow: /*.png$ — запрет на определённый тип файла на вашем сайте.
Нельзя забывать и про разрешающую директиву Allow. Она даёт разрешение роботом на индексирование определённых путей в запрещённом файле.
Приведём пример директивы, из-за отсутствия которой робот системы Гугл отправил множество писем владельцам сайтов, его содержание — «Googlebot не может получить доступ к файлам CSS и JS на сайте». Далее, идёт комментарий о том что, если не открыть файлы CSS и js, то можно потерять позиции в поисковой выдаче. Для исправления ошибки используется следующая директива:
Allow: /themplate/*.js
Allow: /themplate/*.css
Disallow: /themplate
Это официальное разрешение роботам на индекс файлов CSS и JS, но при этом есть запрет на индексирование всего в папке с шаблоном.
Host
Разрешение, воспринимаемое лишь роботами Яндекс. Команда прописывается для определения основного домена ресурса из зеркала сайта.
Если вы владеете ресурсом okna.com, но ещё есть и другие с редиректом на основной: okna2.com, okna3.com и так далее. В этом случае роботу нужно подсказать, какой домен главный. Если ситуация не про вас, то команда Host не применяется.
Crawl-delay
Эта директива тоже работает только для Яндекса. Необходима она для снижения нагрузки на сервер со стороны поисковых роботов. Иногда индексировать страницы могут одновременно сотни поисковиков, поэтому ресурс может начать зависать.
Crawl-delay — это минимальный период меду загрузками страниц вашего ресурса, обычно используется значение две секунды.
Sitemap
Команда нужна для подсказки роботу, где расположилась карта сайта (sitemap.xml). Роботы запоминают этот путь и лояльно относятся к ресурсам, которые указывают его в файле роботс.
Как создавать файл robots.txt
Нужно открыть блокнот и один раз разобраться со всеми файлами своего ресурса. Каждая директива прописывается с новой строчки. Вот, например, как выглядит роботс для нашего сайта:
Если ручная настройка кажется сложной, можно использовать генераторы файла robots.txt на следующих сайтах: https://htmlweb.ru или https://pr-cy.ru.
После загрузки файла роботс, нужно его проверить. Для этого используются ресурсы: «Яндекс. Вебмастер» или «Гугл.Вебмастер».
Частые ошибки в файле роботс
Новички часто могут допустить следующие ошибки, которые способны повлиять на работу всего сайта:
- Строка осталась пустой – этого нельзя допускать в директиве user-agent.
- Host — команда используется в единственном экземпляре. Если робот обнаружил две строки с этой директивой, то будет работать только с первой. Ещё в этой директиве путь к домену прописывается без / и http.
- В Яндексе существуют роботы, невоспринимающие правила, прописанные в роботс. Индексирование им запрещают с помощью именных команд, которые создаются отдельно. Вот эти роботы: YandexAccessibilityBot, YaDirectFetcher, YandexMobileBot, YandexCalendar, YandexDirectDyn и YandexDirect.
- Имя файла прописывается только в виде robots.txt, никаких заглавных букв.
Работа с файлом robots.txt требует внимания и знаний. Не спешите заполнять его бездумно. Если есть трудности, то лучше обратиться к специалистам команды Grand-SEO.
Редактирование файла robots.txt — Lightspeed eCommerce
Покупатели посещают ваш магазин eCom с помощью поисковой системы, такой как Google Search. Они выбирают ссылку вашего магазина из результатов поиска. Чтобы предоставить результаты, поисковые системы собирают информацию о вашем магазине eCom с помощью веб-сканеров. Ваш файл robots.txt управляет поисковыми роботами.
Редактировать файл Robots.txt не требуется. Разрешить индексирование всех страниц и со всех поисковых систем — это нормально. Отредактируйте файл robots.txt только в том случае, если у вас есть опыт работы с поисковой оптимизацией. С его помощью вы можете:
- Запретить поисковым системам индексировать ваш сайт. Например, при создании магазина eCom у вас может быть незавершенный контент, который не следует индексировать.
- Запретить индексирование определенных страниц в вашем магазине eCom. Например, страницы, которые вы не хотите индексировать.
- Запрещает определенным поисковым системам индексировать ваш сайт. Например, если Китай находится за пределами вашего целевого рынка, вы можете заблокировать китайские поисковые системы от индексации вашего сайта.
Чтобы просмотреть текущий файл robots.txt, перейдите по адресу yourdomain.com/robots.txt. По умолчанию Lightspeed eCom предоставляет вашу карту сайта поисковым системам и блокирует:
- Экран входа в бэк-офис — / admin
- Страница корзины — / корзина
- Сравнить страницы — / сравнить
- Касса — / Касса
Измените файл robots.txt в Lightspeed eCom:
- В левом меню бэк-офиса нажмите Настройки , а из Настройки веб-сайта нажмите Веб-дополнительные материалы .
- В разделе ROBOTS.TXT включите переключатель с надписью Status .
- Введите свой файл robots.txt в поле Robot .
Основной формат robots.txt:
User-agent: [Название веб-сканера поисковой системы] Запретить: [веб-адрес, который нельзя сканировать]
Агент пользователя идентифицирует поискового робота. Например:
-
Пользовательский агент: Googlebot
— Google Search -
Пользовательский агент: Bingbot
— Microsoft Bing и Yahoo -
Пользовательский агент: Baiduspider
— Baidu, ведущая китайская поисковая система -
User-agent: *
— Нацелен на всех поисковых роботов.
Disallow указывает страницу, которую вы хотите заблокировать. Введите местоположение файла вместо полного веб-адреса. Например:
-
Disallow: / Womens-apparel
— запрещает индексацию любого контента на странице yourdomain.com/Womens-apparel и любых подстраницах. -
Disallow: / Womens-apparel /
— запрещает только контент в вашем domain.com/Womens-apparel . Все подстраницы по-прежнему будут проиндексированы. -
Disallow: /
— запрещает индексирование всех страниц. -
Disallow:
— разрешает индексацию для всех страниц.
Для получения дополнительной информации о файле robots.txt перейдите на страницу поддержки Google
Устранение неполадок и поддержка robots.txt
- Внимательно проверьте свой код на наличие косой черты / символов.
- Убедитесь, что в файле robots.txt нет пробелов.
- Используйте robots.txt Tester в консоли поиска Google для проверки предупреждений или ошибок.
Для получения дополнительной информации по:
- Настройка Google Search Console, прочтите нашу справочную статью здесь.
- Чтобы получить доступ к тестеру robots.txt Google, прочтите справочную статью Google здесь.
Наша служба поддержки готова помочь вам с вашим магазином eCom. Редактирование robots.txt вашей темы может вызвать проблемы с рейтингом вашей поисковой системы. В этом случае наша команда поддержки может не обладать знаниями в области SEO, необходимыми для непосредственного решения проблемы в вашем файле robots.txt. В этих случаях они могут порекомендовать:
- Обращение к стороннему специалисту по SEO для решения проблемы.
- Удаление изменений в поле robots.txt для восстановления настроек по умолчанию.
Задержка сканирования 2
При просмотре ошибок в консоли поиска Google не обращайте внимания на уведомление Crawl-delay 2 . Это несерьезно и не влияет на работу вашего интернет-магазина. Crawl-Delay вовлекает роботов Google, посещающих интернет-магазины, и предотвращает перегрузку сервера, которая может вызвать задержку работы вашего интернет-магазина.
Как настроить robots.txt для вашего сайта
Файл robots.txt может использоваться, чтобы разрешить или запретить нескольким ботам посещать сайт. Он сообщает поисковой системе, что нужно указать способ взаимодействия с индексированием содержимого вашего веб-сайта.
В файле robots.txt используются следующие синтаксисы:
User-agent: * »означает, что это применимо ко всем роботам.
«Disallow: /» сообщает роботу, что он не должен посещать какие-либо страницы сайта.
Разрешить: / скажет robots.txt, чтобы проверить все содержимое.
Disallow: / sample-directory / запрещает роботу посещать указанный каталог.
Disallow: /private_file.html блокирует определенную страницу.
Disallow: /images/example.jpg блокирует определенные изображения.
Disallow: /*.gif$ блокирует доступ к файлам .gif, аналогично здесь можно добавить другие типы расширений.
Вы можете указать правило карты сайта в последнем файле robots.txt. Если вы хотите, например, http://www.yoursite.com/sitemap.xml.gz
В этой статье поддержки объясняется, как можно реализовать робота.txt на вашем сервере Cloudways.
Как настроить robots.txt для вашего веб-сайта
Шаг 1. Доступ к серверу через SSH
Чтобы подключиться к вашему серверу через SSH, следуйте этой статье.
После подключения к SSH / SFTP вы можете загрузить существующий файл robots.txt в public_html папки вашего приложения.
Шаг 2. Создание файла robots.txt
Если файл robot.txt не загружен или отсутствует, вы можете создать нового робота.txt в корневом веб-каталоге вашего приложения, введя следующую команду:
Теперь откройте файл, набрав команду «vi».
Затем добавьте записи, как показано на снимке экрана ниже. Вы можете изменить записи в соответствии с вашими потребностями и сохранить файл, нажмите Esc и введите:
Добавление файла robots.txt через SFTP
Вы также можете использовать текстовый редактор на базе Windows, например Блокнот, чтобы создать файл robots.txt и затем загрузить его в public_html папки вашего приложения.
Чтобы узнать, как подключить SFTP к вашему серверу, посетите эту статью.
Настройка файла robots.txt
Во второй части нашей статьи «Руководство по использованию Robots.txt + примеры» рассказывается о том, как настроить только что созданный файл robots.txt.
Если вы не знаете, как создать свой собственный файл robots.txt, или не знаете, какой именно файл, перейдите к нашей первой части этой серии статей «Роботы.txt: руководство по передовой практике + примеры », где вы сможете узнать, что такое файл robots.txt и как его правильно настроить. Даже если вы какое-то время занимались поисковой оптимизацией, статья предлагает отличный курс повышения квалификации.
Как добавить файл robots.txt на свой сайтФайл Robots.txt обычно хранится в корне вашего веб-сайта, чтобы его можно было найти. Например, если ваш сайт был https: // www.mysite.com, ваш файл robots.txt будет найден здесь: https://www.mysite.com/robots.txt. Поместив файл в основную папку или корневой каталог вашего сайта, вы сможете контролировать сканирование всех URL-адресов в домене https://www.mysite.com.
Также важно знать, что файл robots.txt чувствителен к регистру, поэтому обязательно назовите файл «robots.txt», а не что-то вроде Robots.txt, ROBOTS.TXT, robots.TXT или любой другой вариант с заглавными буквами. .
Почему robots.txt важенRobots.txt — это просто текстовый файл, но этот «простой» текстовый файл чрезвычайно важен, поскольку он используется для того, чтобы поисковые системы точно знали, где они могут и не могут перейти на ваш сайт. Вот почему это чрезвычайно важная часть вашего сайта.
После того, как вы добавили новый файл robots.txt на свой сайт или просто обновляете текущий файл robots.txt, важно протестировать его, чтобы убедиться, что он работает так, как вы хотите.
Несмотря на то, что существует множество сайтов и различных инструментов, которые можно использовать для проверки файла robots.txt, вы все равно можете использовать тестер файлов robots.txt от Google в старой версии Search Console. Просто войдите в Search Console своего сайта, прокрутите страницу вниз и нажмите → Перейти к старой версии
.Затем нажмите Сканирование → robots.txt tester
Отсюда вы сможете протестировать роботов для своих сайтов.txt, добавив код из своего файла в поле и нажав кнопку «Проверить».
Если все пойдет хорошо, красная кнопка тестирования теперь должна стать зеленой и должна переключиться на «Разрешено», как только это произойдет, это означает, что ваш новый созданный или измененный файл robots.txt действителен. Теперь вы можете загрузить файл robots.txt в корневой каталог вашего сайта.
Google обновляет стандарты файла robots.txt, вступающие в силу 1 сентябряGoogle недавно объявил об изменениях в том, как Google понимает некоторые из неподдерживаемых директив в ваших файлах robots.txt файл.
С 1 сентября Google перестанет поддерживать неподдерживаемые и неопубликованные правила в протоколе исключения роботов. Это означает, что Google больше не будет поддерживать файлы robots.txt с директивой noindex, указанной в файле.
Если вы ранее использовали директиву noindex в файле robots.txt для управления сканированием, вы можете использовать ряд альтернативных параметров:
Noindex в метатегах robots: оба этих тега поддерживаются как в заголовках ответов HTTP, так и в HTML.Однако директива noindex — наиболее эффективный способ удалить URL-адреса из индекса, когда сканирование разрешено.
Коды состояния 404 и 410 HTTPОба этих кода статуса означают, что страница не существует, что приведет к удалению всех URL-адресов, возвращающих этот код, из индекса Google после того, как они будут просканированы и обработаны.
Защита паролемДобавление защиты паролем — отличный способ полностью запретить Google просмотр и сканирование страниц вашего сайта или вашего сайта (думая о версии сайта для разработчиков). Скрытие страницы за логином обычно удаляет ее из индекса Google, поскольку это не так. может заполнить необходимую информацию, чтобы двигаться дальше и увидеть, что стоит за логином.Вы можете использовать подписку и разметку платного контента для этого типа контента, но это уже другая тема в другой раз.
Запретить в robots.txtПоисковые системы могут индексировать только те страницы, о которых они знают (могут находить и сканировать), поэтому блокировка страницы или страниц от сканирования обычно означает, что их содержание не будет проиндексировано. Важно помнить, что Google по-прежнему может находить и индексировать эти страницы, ссылаясь на другие страницы.
Инструмент удаления URL в Search ConsoleИнструмент удаления консоли поиска предлагает вам быстрый и простой способ временно удалить URL из результатов поиска Google. Мы говорим «временно», потому что этот вариант действителен только около 90 дней. После этого ваш URL снова может появиться в результатах поиска Google.
Чтобы сделать ваше удаление постоянным, вам нужно будет выполнить шаги, указанные выше.
- Блокировать доступ к контенту (требуется пароль)
- Добавить метатег noindex
- Создайте код состояния HTTP 404 или 410
Внесение небольших изменений иногда может иметь большое влияние на SEO вашего сайта, и использование файла robots.txt — одна из тех настроек, которые могут существенно повлиять на ситуацию.
Помните, что ваш файл robots.txt должен быть загружен в корень вашего сайта и должен называться «robots.txt», чтобы его можно было найти. Этот небольшой текстовый файл необходим для каждого веб-сайта, а добавление файла robots.txt в корневую папку вашего сайта — очень простой процесс
Надеюсь, эта статья помогла вам узнать, как добавить файл robots.txt на свой сайт, а также о важности его наличия.Если вы хотите узнать больше о файлах robots.txt, но еще не сделали этого, вы можете прочитать первую часть этой серии статей «Практическое руководство по использованию Robots.txt + примеры».
Каков ваш опыт создания файлов robots.txt?
Майкл Макманус — руководитель практики Earned Media (SEO) в iProspect.
Виртуальных роботов.txt | Справочный центр OnCrawl
Виртуальный файл robots.txt существует только в OnCrawl для целей сканирования, с которым он связан. Он предоставляет информацию того же типа и работает так же, как ваш обычный файл robots.txt, но адаптирован к требованиям вашего поискового сканирования.
Иногда вы не хотите, чтобы ваш бот для SEO-аудита следовал тем же правилам, которые вы показываете ботам поисковых систем в файле robots.txt.
Есть много причин, по которым вы можете не использовать робота по умолчанию.txt для вашего сайта:
Конечно, вы не хотите заменять обычный файл robots.txt, поскольку он содержит важные инструкции для поисковых систем. Здесь появляется виртуальный файл robots.txt.
Перед запуском
Чтобы переопределить файл robots.txt, вам нужно будет проверить сайт, который вы хотите сканировать. Это позволяет нам знать, что у вас есть разрешение игнорировать настройку сайта.
Если вы не уверены, подтвердили ли вы свой проект или нет, вы можете выполнить шаги один и два ниже.Если ваш проект уже прошел проверку, мы сообщим вам об этом на странице проверки проекта.
На домашней странице проекта (или любой другой странице проекта) в верхнем правом углу щелкните три точки, чтобы открыть меню проекта.
Выберите «Подтвердить право собственности»
Следуйте инструкциям, чтобы предоставить информацию, необходимую для проверки вашего проекта.
Нажмите «Настроить новое сканирование», чтобы перейти непосредственно на страницу настроек сканирования.
Включить виртуальный robots.txt
На странице настроек сканирования включите использование виртуального файла robots.txt:
Убедитесь, что в верхней части страницы показаны дополнительные настройки. Если переключатель серый, нажмите «Показать дополнительные настройки», чтобы отобразить их.
Прокрутите вниз до раздела «Дополнительные настройки» и нажмите «Виртуальный robots.txt», чтобы развернуть раздел.
Отметьте «Включить виртуальных роботов.txt «
Предоставьте содержимое виртуального файла robots.txt
Чтобы упростить создание виртуального файла robots.txt, OnCrawl использует существующий файл в качестве шаблона.
Укажите доменное имя (URL-адрес веб-сайт), для которого вы хотите создать виртуальный файл robots.txt. Если хост домена не существует или не отвечает, но вы все равно хотите его использовать, вы можете нажать «Хост не найден, создать?», чтобы создать пустой файл robots.txt
Нажмите «+», чтобы добавить роботов.txt
В поле «Правила виртуального robots.txt» отображается содержимое виртуального файла robots.txt. Добавьте, измените или удалите правила, чтобы создать файл robots.txt, который будет использоваться ботом OnCrawl.
Если вы сканируете несколько доменов или субдоменов, повторите эти шаги (1-3) для каждого домена или субдомена, которому нужен виртуальный robots.txt.
Когда вы закончите, прокрутите страницу вниз и нажмите «Сохранить» или «Сохранить и запустить сканирование», чтобы сохранить ваших виртуальных роботов.txt файл.
Сканировать все
Разрешить боту OnCrawl доступ ко всему, добавив:
User-Agent: OnCrawl
Разрешить: /
Сканировать заблокированные страницы
Чтобы сканировать каталоги или страницы, которые в настоящее время запрещены, удалите или закомментируйте строка запрета:
# Disallow: / blog /
Сканировать только часть сайта
Чтобы сканировать только часть сайта, удалите или закомментируйте правила, применимые ко всему сайту.
Затем запретите сканирование каталогов. Разрешите каталоги, которые вы хотите сканировать.
Запретить: / blog /
Разрешить: / products /
Сканирование только некоторых субдоменов сайта
Убедитесь, что сканирование субдоменов, которые вы хотите сканировать, разрешено.
Для каждого субдомена, который вы не хотите сканировать, создайте виртуальный robots.txt и запретите весь субдомен:
User-Agent: OnCrawl
Disallow: /
Например, для сканирования , пожалуйста, просканируйте.mysite.com , но не do-not-crawl-1.mysite.com или do-not-crawl-2.mysite.com :
Убедитесь, что файл robots.txt для , пожалуйста, просканируйте. mysite.com позволяет сканировать поддомен.
Создайте robots.txt для do-not-crawl-1.mysite.com и запретите субдомен.
Создайте robots.txt для do-not-crawl-1.mysite.com и запретите субдомен.
Подробнее об этой модификации см. Как сканировать одни поддомены, но не другие.
Разрешить боту OnCrawl сканировать быстрее скорости, установленной в задержке сканирования
Удалите или закомментируйте параметр задержки сканирования:
# Crawl-delay: 2
Для получения дополнительной информации об этой модификации см. Ваши роботы .txt имеет настройку задержки сканирования со значением более 1 секунды.
User-Agent: OnCrawl
Allow: /
Если вы используете правила Disallow, не забудьте не запрещать начальные URL!
Роботы.txt будет применяться только к домену или субдомену, для которого он был создан. В случае сканирования, включающего несколько субдоменов, создайте файл robots.txt для каждого субдомена.
Дополнительную информацию о файлах robots.txt можно найти здесь: http://www.robotstxt.org/robotstxt.html
Вы можете использовать Google Search Console, чтобы проверить, как правила влияют на сканирование.
Если у вас все еще есть вопросы об использовании виртуального robots.txt, напишите нам на @oncrawl_cs или нажмите кнопку «Интерком» в правом нижнем углу экрана, чтобы начать чат с нами.
Счастливого ползания!
Эту статью также можно найти, выполнив поиск по:
ограничения в файле robots.txt, создать временный файл robots.txt
ограничений на создание файла robots.txt, создать новый файл robots.txt temporaire
[Step- пошаговое руководство] Как настроить файл robots.txt в Magento 2
Чтобы включить отправку в Robots.txt в Magento 2, вам необходимо выполнить следующие шаги:
1. Войдите в свою панель администратора .
2. Перейдите в Магазины> Настройки> Конфигурация и выберите XML Sitemap на вкладке Каталог .
3. Откройте вкладку Search Engine Submission Settings и установите Yes в раскрывающемся списке Enable Submission to Robots.txt .
4. Нажмите кнопку Сохранить конфигурацию .
Конфигурация Robots.txt в Magento 2
Шаг 1
Перейдите в Содержимое> Дизайн> Конфигурация .
Шаг 2
В открывшейся сетке найдите строку Global , щелкните ссылку Edit и откройте вкладку Search Engine Robots .
Шаг 3
Теперь выберите, какие Роботы по умолчанию вам нужны из следующего:
- INDEX, FOLLOW : поисковые системы будут регулярно индексировать ваши страницы и проверять изменения.
- NOINDEX, FOLLOW : Бот поисковой системы не будет индексировать ваш сайт, но все равно будет отслеживать изменения.
- INDEX, NOFOLLOW : поисковый бот один раз проиндексирует ваш магазин, но никогда не возвращается, чтобы отслеживать изменения.
- NOINDEX, NOFOLLOW : этот параметр скроет ваш магазин от ботов поисковых систем.
Шаг 4
В строке Edit Custom command файла robots.txt вы можете написать необходимые пользовательские инструкции. Читайте дальше, чтобы узнать больше об этой опции.
Шаг 5
Если вы хотите сбросить настройки по умолчанию, вам нужно нажать кнопку «Сбросить значения по умолчанию », что приведет к удалению всех ваших пользовательских инструкций.
Шаг 6
Не забудьте набрать Сохранить конфигурацию , чтобы применить изменения.
Как мы уже упоминали, вы можете добавлять собственные инструкции в конфигурации robot.txt. Ниже мы приводим примеры, которые вы можете использовать для своих нужд.
Разрешить полный доступ
Пользовательский агент: *
Запрещено:
Запретить доступ ко всем папкам
Пользовательский агент: *
Запрещено: /
Инструкции по умолчанию
Запрещено: / lib /
Disallow: / *.PHP $
Запрещено: / pkginfo /
Disallow: / report /
Запрещено: / var /
Disallow: / catalog /
Запрещено: / customer /
Запретить: / sendfriend /
Disallow: / review /
Disallow: / * SID =
Ограничить учетную запись пользователя и страницы оформления заказа
Disallow: / checkout /
Disallow: / onestepcheckout /
Запрещено: / customer /
Disallow: / customer / account /
Disallow: / customer / account / login /
Запретить поиск по каталогу
Запрещено: / catalogsearch /
Запрещено: / catalog / product_compare /
Запрещено: / каталог / категория / просмотр /
Запрещено: / catalog / product / view /
Запретить поиск с помощью фильтра URL-адресов
Disallow: / *? Dir *
Disallow: / *? Dir = desc
Disallow: / *? Dir = asc
Disallow: / *? Limit = all
Disallow: / *? Mode *
Ограничить каталоги CMS
Disallow: / app /
Запрещено: / bin /
Запрещение: / dev /
Запрещено: / lib /
Запрещает: / phpserver /
Запрещено: / pub /
Запретить дублирование содержимого
Disallow: / tag /
Disallow: / review /
Чтобы забыть о сбоях в индексации Google, автоматически сгенерируйте карты сайта в формате XML.В результате вы добьетесь более быстрой индексации контента, исключите из индексации нерелевантные страницы, определите частоту обновления страниц и получите более высокие позиции в поисковой выдаче.
Файлы Robots.txt — Урок цифрового маркетинга
Цифровой маркетинг — Учебные заметки:
Инструкции для роботов
Файл robots.txt — это простой текстовый файл, размещаемый на вашем веб-сервере, который сообщает поисковым роботам, следует ли им обращаться к файлу на вашем веб-сайте.Файл robots.txt определяет, как пауки поисковых систем видят ваши веб-страницы и взаимодействуют с ними.
Если на вашем сайте есть какие-либо области, которые вы бы предпочли, чтобы поисковая система не сканировала, т. Е. Вы не хотите, чтобы она индексировалась, вы можете создать файл robots.txt, который запрещает URL-путь , который вы в конечном итоге хочу заблокировать.
Если вы запретите любую страницу, содержащую косую черту, вы можете заблокировать любой доступ к сайту. Вы также можете заблокировать отдельные папки или файлы изображений , если вы не хотите, чтобы они сканировались.(Примеры этих инструкций см. На слайде «Инструкции для роботов».)
Проверить, есть ли на сайте файл robots.txt, можно из любого браузера. Файл robots.txt всегда находится в одном и том же месте на любом веб-сайте, поэтому легко определить, есть ли он на сайте. Просто добавьте «/robots.txt» в конец доменного имени.
Вернуться к началуРесурсы цифрового маркетинга:
Шейн Лайонс
Шейн Лайонс — руководитель отдела поиска и аналитики в Mediaworks, отмеченном наградами медиа и коммуникационном агентстве.Последние 8 лет он работал в сфере цифровых технологий как в Ирландии, так и за рубежом, а теперь специализируется на SEO и аналитике.
Правила защиты данных влияют практически на все аспекты цифрового маркетинга. Поэтому DMI подготовила краткий курс по GDPR для всех наших студентов. Если вы хотите узнать больше о GDPR, вы можете сделать это здесь:
Краткий курс DMI: GDPR
Следующие фрагменты контента из Библиотеки членства Института цифрового маркетинга были выбраны, чтобы предложить дополнительные материалы, которые могут быть вам интересны или полезны.
Вы можете найти больше информации и контента в Библиотеке членства Института цифрового маркетинга
Вы будете оценивать это содержание на выпускном экзамене , а не .
Использование и настройка Robots.txt в 2021 году
Истоки протокола robots.txt, или «протокола исключения роботов», можно проследить до середины 1990-х годов, когда веб-пауки путешествовали по Интернету, чтобы читать веб-сайты.Некоторых веб-мастеров беспокоило, какие пауки посещают их сайты. Файл, содержащий указания, по каким разделам сайта следует сканировать и который не должен предлагать владельцам сайтов обещание иметь больший контроль над тем, какие сканеры могут посещать их URL-адреса и какой объем ресурсов им разрешено использовать. С тех пор файл robots.txt расширился, чтобы удовлетворить потребности современных веб-дизайнеров и владельцев веб-сайтов.
Текущие версии протокола будут приняты пауками и основными поисковыми системами для отправки для сбора информации для их соответствующих алгоритмов ранжирования.Это общее соглашение между различными поисковыми системами, что делает команды потенциально ценным, но часто упускаемым из виду инструментом для брендов в их отчетах по SEO.
Что такое robots.txt?
Robots.txt — это серия команд, которые сообщают веб-роботам, обычно поисковым системам, какие страницы сканировать, а какие нет. Когда поисковая система попадает на сайт, она просматривает команду для получения инструкций. Для сайта может показаться нелогичным указать поисковой системе не сканировать его страницы, но это также может дать веб-мастерам мощный контроль над своим краулинговым бюджетом.
При записи файла протокола вы будете использовать простые двухстрочные команды. В первой строке написано «пользовательский агент». Эта часть протокола определяет, к кому применяются инструкции, а звездочка « * », обычно называемая подстановочным знаком, будет означать, что команда применяется ко всем веб-роботам. Под «агентом пользователя» будет написано «запретить». Это говорит роботам, что они не могут делать. Если есть «\», это означает, что пауки не должны ничего сканировать по сайту. Если эта часть остается пустой, пауки могут сканировать весь сайт.
Зачем мне использовать robots.txt?
Понимание того, как Google сканирует веб-сайты, поможет вам понять ценность использования протокола robots.txt. У Google есть краулинговый бюджет. Это описывает количество времени, которое Google будет посвящать сканированию определенного сайта. Google рассчитывает этот бюджет на основе ограничения скорости сканирования и потребности в сканировании. Если Google видит, что их сканирование сайта замедляет этот URL и, таким образом, ухудшает взаимодействие с пользователем в любых обычных браузерах, они замедляют скорость сканирования.Это означает, что если вы добавите новый контент на свой сайт, Google не увидит его так быстро, что может нанести ущерб вашему SEO.
Вторая часть расчета бюджета, спрос, диктует, что URL-адреса с большей популярностью будут получать больше посещений от пауков Google. Другими словами, как заявил Google, «вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил краулинговый бюджет на сканирование неважных или похожих страниц вашего сайта». Протокол позволит вам лучше контролировать, куда и когда отправляются поисковые роботы, помогая вам избежать этой проблемы.Robots.txt не только помогает вам направлять роботов поисковых систем с менее важных или повторяющихся страниц вашего сайта, но и служить другим важным целям:
- Это может помочь предотвратить появление дублированного контента. Иногда вашему веб-сайту может потребоваться более одной копии контента. Например, если вы создаете версию для печати части контента, у вас могут быть две разные версии. У Google есть хорошо известное наказание за дублирование контента. Это позволит вам этого избежать.
- Если вы переделываете части своего веб-сайта, вы можете использовать robots.txt, чтобы скрыть незавершенные страницы от индексации до того, как они будут подготовлены.
- У вас также, вероятно, есть страницы на вашем веб-сайте, которые вы не хотите показывать широкой публике. Например, это может быть страница с благодарностью после того, как кто-то совершил покупку или отправил страницу входа. Эти страницы не должны появляться в поисковой системе, что делает бесполезным их индексирование для Google или других поисковых систем.
По данным Google, вот некоторые из наиболее распространенных наборов правил для протокола:
- Важно, что при этом отмечая различные полезные функции robots.txt, вы не пытаетесь использовать протокол для сохранения конфиденциальности конфиденциальной информации. Думайте о протоколе как о запросе, а не о команде.
- Хотя «хорошие» пауки, которыми управляют такие авторитетные организации, как Google или Bing, будут слушать приказы протокола, поисковые роботы, разработанные теми, у кого более гнусные намерения, по-прежнему могут игнорировать команду и сканировать страницу независимо от код указан. Страницы также можно проиндексировать другими способами. Например, если другой сайт или другая страница вашего собственного сайта ссылается на эту страницу, ваша скрытая страница может быть проиндексирована.
- При планировании инфраструктуры сайта важно различать личные страницы. Являются ли эти страницы частными и недоступными для обнаружения исключительно по причинам SEO, или содержание этих страниц вдали от поисковых роботов является проблемой безопасности — например, раскрытие конфиденциальных данных клиентов? Ценность файла robots.txt заключается в стратегии SEO, а не в сохранении конфиденциальности конфиденциальной информации.
Как настроить robots.txt?
Настройка протокола может быть несложной, но сначала давайте рассмотрим, что означают две части протокола:
- User-agent : относится к поисковым роботам, на которые ссылается текст
- Disallow : указывает, что вы хотите заблокировать, что сканер не должен читать
В дополнение к этим двум основным частям вы также можете использовать третью часть, помеченную как «разрешить», если вам это нужно.Этот раздел будет использоваться, если у вас есть подкаталог, который находится в заблокированном каталоге. Например, если вы хотите заблокировать большую часть каталога, но у вас есть один небольшой подкаталог, самый быстрый способ настроить его — это сказать: user-agent: * (помните, что звездочка указывает, что протокол применяется к все пауки) disallow: / directory allow: / subdirectory1
Это укажет сканерам посмотреть на этот единственный подкаталог, даже если он находится в более крупном заблокированном каталоге.Если вы хотите разрешить поисковым роботам просматривать сайт целиком, оставьте поле «Запрещать» пустым. Если вы хотите настроить robots.txt на блокировку определенных страниц, таких как страница входа или страница благодарности, то в разделе «запретить» протокола вы поместите часть своего URL-адреса, которая идет после ‘. com ‘. Когда вы думаете о страницах, которые вы можете захотеть заблокировать, подумайте об этих типах контента и посмотрите, есть ли у вас на вашем сайте.
- Страницы входа
- Страницы с благодарностями после того, как кто-то что-то скачает или купит
- Требуется дублированный контент, например PDF-файл или версия веб-страницы для печати
- Новые страницы, которые вы начали разрабатывать, но пока не хотите, чтобы поисковые системы их индексировали
Хотя robots.txt выглядит просто, есть несколько правил, которые необходимо соблюдать, чтобы код был правильно интерпретирован.
- Используйте все строчные буквы в имени файла, «robots.txt»
- Протоколы должны находиться в каталоге верхнего уровня веб-сервера
- У вас может быть только один запрет для каждого URL на сайте
- Субдомены с общим корневым доменом нуждаются в разных файлах протокола
После настройки протокола вам следует протестировать свой сайт с помощью учетной записи Google Webmasters.В меню будет опция «Сканирование». При нажатии на нее откроется раскрывающееся меню, в котором будет опция тестера протокола.