Использование файла robots.txt — Вебмастер. Справка
Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.
При очередном обходе сайта робот Яндекса загружает файл robots.txt. Если при последнем обращении к файлу, страница или раздел сайта запрещены, робот не проиндексирует их.
- Требования к файлу robots.txt
- Рекомендации по наполнению файла
- Использование кириллицы
- Как создать robots.txt
- Вопросы и ответы
Роботы Яндекса корректно обрабатывают robots.txt, если:
Размер файла не превышает 500 КБ.
Это TXT-файл с названием robots — robots.txt.
Файл размещен в корневом каталоге сайта.
Файл доступен для роботов — сервер, на котором размещен сайт, отвечает HTTP-кодом со статусом 200 OK.
Если файл не соответствует требованиям, сайт считается открытым для индексирования.
Яндекс поддерживает редирект с файла robots.txt, расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.
Яндекс поддерживает следующие директивы:
Директива | Что делает |
---|---|
User-agent * | Указывает на робота, для которого действуют перечисленные в robots.txt правила. |
Disallow | Запрещает индексирование разделов или отдельных страниц сайта. |
Sitemap | Указывает путь к файлу Sitemap, который размещен на сайте. |
Clean-param | Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании. |
Allow | Разрешает индексирование разделов или отдельных страниц сайта. |
Crawl-delay | Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере. |
* Обязательная директива.
Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:
User-agent: * #указывает, для каких роботов установлены директивы Disallow: /bin/ # запрещает ссылки из "Корзины с товарами". Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска Disallow: /admin/ # запрещает ссылки из панели администратора Sitemap: http://example.com/sitemap # указывает роботу на файл Sitemap для сайта Clean-param: ref /some_dir/get_book.pl
Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.
Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.
Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.
Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.
Пример файла robots.txt:
#Неверно: User-agent: Yandex Disallow: /корзина Sitemap: сайт.рф/sitemap.xml #Верно: User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml
В текстовом редакторе создайте файл с именем robots. txt и укажите в нем нужные вам директивы.
Проверьте файл в Вебмастере.
Положите файл в корневую директорию вашего сайта.
Пример файла. Данный файл разрешает индексирование всего сайта для всех поисковых систем.
Сайт или отдельные страницы запрещены в файле robots.txt, но продолжают отображаться в поиске
Как правило, после установки запрета на индексирование каким-либо способом исключение страниц из поиска происходит в течение двух недель. Вы можете ускорить этот процесс.
В Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»
Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.
Чтобы проверить доступность файла robots.txt для робота, проверьте ответ сервера.
Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), Яндекс учитывает robots.txt, на который происходит перенаправление. Убедитесь, что в этом файле указаны верные директивы. Чтобы проверить файл, добавьте сайт, который является целью перенаправления, в Вебмастер и подтвердите права на управление сайтом.
Директива Clean-param — Вебмастер. Справка
Используйте директиву Clean-param, если адреса страниц сайта содержат GET-параметры (например, идентификаторы сессий, пользователей) или метки (например, UTM), которые не влияют на их содержимое.
Примечание. Иногда для закрытия таких страниц используется директива Disallow. Рекомендуем использовать Clean-param, так как эта директива позволяет передавать основному URL или сайту некоторые накопленные показатели.
Обучающее видео. Как использовать директиву Clean-param. Посмотреть видео |
Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска.
Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, на сайте есть страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:
User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
Робот Яндекса сведет все адреса страницы к одному:
www.example.com/some_dir/get_book.pl?book_id=123
Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.
Чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:
User-agent: Yandex Disallow: Clean-param: utm
Совет. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла. Если вы указываете другие директивы именно для робота Яндекса, перечислите все предназначенные для него правила в одной секции. При этом строка
будет проигнорирована.
Clean-param: p0[&p1&p2&. .&pn] [path]
В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.
Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом символ * трактуется так же, как в файле robots.txt: в конец префикса всегда неявно дописывается символ *. Например:
Clean-param: s /forum/showthread.php
означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта.
Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:
Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*. php Clean-param: someTrash&otherTrash
#для адресов вида: www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: s /forum/showthread.php
#для адресов вида: www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: sid /index.php
#если таких параметров несколько: www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах: www. example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php
Robots.txt — инструкция для SEO
24213 222
SEO | – Читать 12 минут |
Прочитать позже
ЧЕК-ЛИСТ: ТЕХНИЧЕСКАЯ ЧАСТЬ — ROBOTS.TXT
Ильхом Чакканбаев
Автор блога Seopulses.ru
Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет. В данной статье рассмотрим, где можно найти robots.txt, как его редактировать и какие правила по его использовать в SEO-продвижении.
Содержание
1. Зачем robots.txt нужен на сайте
2. Где можно найти файл robots.txt и как его создать или редактировать
3. Как создать и редактировать robots.txt
4. Инструкция по работе с robots.txt
5. Синтаксис в robots.txt
6. Директивы в Robots.txt
— Disallow
— Allow
— Sitemap
— Clean-param
— Crawl-delay
7. Как проверить работу файла robots.txt
— В Яндекс.Вебмастер
— В Google Search Console
Заключение
Зачем robots.txt нужен на сайте
Командами robots.txt называются директивы, которые разрешают либо запрещают сканировать отдельные участки веб-ресурса. С помощью файла вы можете разрешать или ограничивать сканирование поисковыми роботами вашего веб-ресурса или его отдельных страниц, чем можете повлиять на позиции сайта. Пример того, как именно директивы будут работать для сайта:
На картинке видно, что доступ к определенным папкам, а иногда и отдельным файлам, не допускает к сканированию поисковыми роботами. Директивы в файле носят рекомендательный характер и могут быть проигнорированы поисковым роботом, но как правило, они учитывают данное указание. Техническая поддержка также предупреждает вебмастеров, что иногда требуются альтернативные методы для запрета индексирования:
Какие страницы нужно закрыть от индексации
Читать |
Где можно найти файл robots.txt и как его создать или редактировать
Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:
https://seopulses.ru/robots.txt
https://serpstat.com/robots.txt
https://netpeak.net/robots.txt
Как провести анализ индексации сайта
Читать |
Как создать и редактировать robots.txt
Вручную
Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
Далее открываем сам файл и можно его редактировать.
Если его нет, то достаточно создать новый файл.
После вводим название документа и сохраняем.
Через модули/дополнения/плагины
Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
Для 1С-Битрикс;
WordPress;
Для Opencart;
Webasyst.
Самые распространенные SEO-ошибки на сайте: инфографика
Читать |
Инструкция по работе с robots.txt
В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
User-agent: Yandex — для обращения к поисковому роботу Яндекса;
User-agent: Googlebot — в случае с краулером Google;
User-agent: YandexImages — при работе с ботом Яндекс.Картинок.
Обращения в robots.txt для Яндекса:
Чтобы обозначить обращение для поисковых роботов данной системы применяют такие значения:
Yandex Bot — основной робот, который будет индексировать ваш ресурс;
Yandex Media — робот, который специализируется на сканировании мультимедийной информации;
Yandex Images — индексатор для Яндекс. Картинок;
Yandex Direct — робот, который сканирует страницы веб-площадок, имеющих отношение к рекламе в Яндексе;
Yandex Blogs — робот для поиска в блогах и форумах, который индексирует комментарии в постах;
Yandex News — бот собирающий данные по Яндекс Новостям;
Yandex Pagechecker — робот, который обращается к странице с целью валидировать микроразметку.
Обращения в robots.txt для Google:
Имена используемые для краулеров от Google:
Googlebot — краулер, индексирующий страницы веб-сайта;
Googlebot Image — сканирует изображения и картинки;
Googlebot Video — сканирует всю видео информацию;
AdsBot Google — анализирует качество размещенной рекламы на страницах для компьютеров;
AdsBot Google Mobile — анализирует качество рекламы мобильных версий сайта;
Googlebot News — оценивает страницы для использования в Google Новости;
AdsBot Google Mobile Apps — расценивает качество рекламы для приложений на андроиде, аналогично AdsBot.
Полный список роботов Яндекс и Google.
Синтаксис в robots.txt
В первую очередь записывается User-Agent, указывая на то, к какому роботу идет обращение, например:
# — отвечает за комментирование;
* — указывает на любую последовательность символов после этого знака. По умолчанию указывается при любого правила в файле;
$ — отменяет действие *, указывая на то что на этом элементе необходимо остановиться.
Почему сайт не индексируется или
как проверить индексацию сайта в Google и Яндекс
Читать |
Директивы в Robots.txt
Disallow
Disallow запрещает индексацию отдельной страницы или группы (в том числе всего сайта). Чаще всего используется для того, чтобы скрыть технические страницы, динамические или временные страницы.
Пример #1
# Полностью закрывает весь сайт от индексации
User-agent: *
Disallow: /
Пример #2
# Блокирует для скачивания все страницы раздела /category1/, например, /category1/page1/ или caterogy1/page2/
Disallow: /category1/
Пример #3
# Блокирует для скачивания страницу раздела /category2/
User-agent: *
Disallow: /category2/$
Пример #4
# Дает возможность сканировать весь сайт просто оставив поле пустым
User-agent: *
Disallow:
Важно! Следует понимать, что регистр при использовании правил имеет значение, например, Disallow: /Category1/ не запрещает посещение страницы /category1/.
Директива Allow указывает на то, что роботу можно сканировать содержимое страницы/раздела, как правило, используется, когда в полностью закрытом разделе, нужно дать доступ к определенному документу.
Пример #1
# Дает возможность роботу скачать файл site.ru//feed/turbo/ несмотря на то, что скрыт раздел site.ru/feed/.
Disallow: */feed/*
Allow: /feed/turbo/
Пример #2
# разрешает скачивание файла doc.xml
Allow: /doc.xml
Sitemap
Директива Sitemap указывает на карту сайта, которая используется в SEO для вывода списка URL, которые нужно проиндексировать в первую очередь.
Важно понимать, что в отличие от стандартных директив у нее есть особенности в записи:
Следует указывать полный URL, когда относительный адрес использовать запрещено;
На нее не распространяются остальные правила в файле robots. txt;
XML-карта сайта должна иметь в URL-адресе домен сайта.
Пример
Sitemap.xml или карта сайта: как создать и настроить для Google и Яндекс
Читать |
Clean-param
Используется когда нужно указать Яндексу (в Google она не работает), что страница с GET-параметрами (например, site.ru?param1=2¶m2=3) и метками (в том числе utm) не влияющие на содержимое сайта, не должна быть проиндексирована.
Пример #1
#для адресов вида:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
Пример #2
#для адресов вида:
www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df
www. example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
Подробнее о данной директиве можно прочитать здесь.
Crawl-delay
Важно! Данная директива не поддерживается в Яндексе с 22 февраля 2019 года и в Google 1 сентября 2019 года, но работает с другими роботами. Настройки скорости скачивания можно найти в Яндекс.Вебмастер и Google Search Console.
Crawl-delay указывает временной интервал в секундах, в течение которого роботу разрешается делать только 1 сканирование. Как правило, необходима лишь в случаях, когда у сайта наблюдается большая нагрузка из-за сканирования.
Пример
# Допускает скачивание страницы лишь раз в 3 секунды
Crawl-delay: 3
Хотите узнать, как использовать Serpstat для поиска ошибок на сайте?
Заказывайте бесплатную персональную демонстрацию сервиса, и наши специалисты вам все расскажут! 😉
Оставить заявку! |
Узнать подробнее! |
Как проверить работу файла robots. txt
В Яндекс.Вебмастер
В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.
Также можно скачать другие версии файла или просто ознакомиться с ними.
Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.
В нашем случае мы проверяем эти правила.
Как видим из примера все работает нормально.
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
В Google Search Console
В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
Сам файл;
Кнопку, открывающую его;
Симулятор для проверки сканирования.
Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.
Заключение
Robots.txt необходим для ограничения сканирования определенных страниц вашего сайта, которые не нужно включать в индекс, так как они носят технический характер. Для создания такого документа можно воспользоваться Блокнотом или Notepad++.
Пропишите к каким поисковым роботам вы обращаетесь и дайте им команду, как описано выше.
Далее, проверьте его правильность через встроенные инструменты Google и Яндекс. Если не возникает ошибок, сохраните файл в корневую папку и еще раз проверьте его доступность, перейдя по ссылке http://yoursiteadress.com/robots.txt. Активная ссылка говорит о том, что все сделано правильно.
Помните, что директивы носят рекомендательный характер, а для того чтобы полностью запретить индексирование страницы нужно воспользоваться другими методами.
«Список задач» — готовый to-do лист, который поможет вести учет
о выполнении работ по конкретному проекту. Инструмент содержит готовые шаблоны с обширным списком параметров по развитию проекта, к которым также можно добавлять собственные пункты.
Начать работу со «Списком задач» |
Сэкономьте время на изучении Serpstat
Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?
Оставьте заявку и мы свяжемся с вами 😉
Оцените статью по 5-бальной шкале
4.71 из 5 на основе 13 оценок
Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.
Рекомендуемые статьи
SEO
Анатолий Бондаренко
Основные ошибки в оптимизации сайта и как их выявить
SEO
Ilkhom Chakkanbaev
Идеальная оптимизация страницы сайта: наглядное руководство [Инфографика]
SEO
Анастасия Кочеткова
Краулинговый или рендеринговый бюджет: не вместо, а вместе
Кейсы, лайфхаки, исследования и полезные статьи
Не успеваешь следить за новостями? Не беда! Наш любимый редактор подберет материалы, которые точно помогут в работе. Только полезные статьи, реальные кейсы и новости Serpstat раз в неделю. Присоединяйся к уютному комьюнити 🙂
Нажимая кнопку, ты соглашаешься с нашей политикой конфиденциальности.
Поделитесь статьей с вашими друзьями
Вы уверены?
Спасибо, мы сохранили ваши новые настройки рассылок.
Сообщить об ошибке
Отменить
Что такое файл robots.txt? – iSEO
Файл robots.txt («роботс тэ-экс-тэ») – текстовый файл, который представляет собой основной способ управления сканированием и индексацией сайта поисковыми системами. Размещается строго в корневой папке сайта. Имя файла должно быть прописано в нижнем регистре.
Зачем нужен robots.txt?
Поисковый робот, попадая на сайт обращается к файлу robots.txt, чтобы получить информацию о том, какие разделы и страницы сайта нужно игнорировать, а также информацию о расположении XML-карты сайта и другие параметры.
Данный файл позволяет убрать из поиска дубли страниц и служебные страницы, на которые не должны попадать посетители из поисковых систем. Помогает улучшить позиции сайта в поиске и комфортность для посетителей в использовании сайта.
Для создания robots.txt достаточно воспользоваться любым текстовым редактором. Его необходимо заполнить в соответствии с определенными правилами (о них расскажем далее) и загрузить в корневой каталог сайта.
Если файла robots.txt на сайте нет или он пустой – поисковые системы могут пытаться сканировать и индексировать весь сайт.
Основные директивы в robots.txt
Комментарии
В файле robots.txt можно оставлять комментарии – они будут игнорироваться поисковыми системами. Комментарии помогают структурировать файл, указывать какие-то важные пометки и т. п. Строка с комментарием должна начинаться с символа решетки – #.
Пример:
# Это комментарий
User-agent
Указывает для какого робота предназначены следующие за ней инструкции. Файл robots.txt может состоять из нескольких блоков инструкций, каждая из которых предназначена для определенной поисковой системы. Каждый блок начинается с директивы User-agent и состоит из следующих за ней инструкций. Каждая инструкция – с новой строки.
Наименования роботов для User-agent можно найти, например, в справке поисковых систем. В Рунете чаще всего используются три:
- * – указывает, что следующие инструкции предназначены для всех роботов. Если робот не найдет в файле robots.txt секции конкретно для него, то будет учитывать эту секцию.
- Yandex – робот Яндекса.
- Googlebot – робот Google.
Примеры:
# Секция для всех роботов, которая разрешает индексировать весь сайт User-agent: * Disallow: # Секция для Google, которая запрещает индексировать папку /secret/ User-agent: Googlebot Disallow: /secret/
Disallow и Allow
Основные директивы, которые указывают, что можно и что нельзя индексировать:
- Disallow – запрещает индексацию
- Allow – разрешает
Поскольку, изначальная стандартная функция robots. txt это именно запрещать индексацию, то чаще используются директивы Disallow. Директива Allow появилась позднее и её могут поддерживать не все поисковые системы. Но Яндекс и Google – поддерживают.
Директива Allow применяется если вам нужно разрешить к индексированию что-то, что было запрещено директивами Disallow. Например, если какая-то папка запрещена к индексированию, но определенный файл/страницу в ней нужно разрешить.
В каждой из директив указывается префикс URL (т. е. начало адреса страницы), для которого должно применяться это правило. Также есть специальные символы:
- * – любая последовательность символов (в том числе, пустая). В конце инструкций ставить этот символ не нужно, т. к. по умолчанию директивы интерпретируются так, что как будто он там уже есть.
- $ – конец строки. Отменяет подразумеваемый символ * на конце строки.
Если в файле используются одновременно директивы Allow и Disallow, то приоритет будет иметь та, префикс URL у которой длиннее. Правила применяются по возрастанию длины префикса.
Пример:
# Секция для Яндекса, которая запрещает индексировать папку /secret/ # но разрешает индексировать страницу /secret/not-really/ # при этом не разрешает индексировать всё остальное в папке /secret/not-really/ User-agent: Yandex Disallow: /secret/ Allow: /secret/not-really/$ # Секция для всех роботов, которая запрещает индексировать весь сайт User-agent: * Disallow: / # Секция для Google, которому можно индексировать только страницы с параметрами в URL User-agent: Googlebot Disallow: / Allow: /*?*=
Clean-param
Директива, которую поддерживает Яндекс. Используется для указания параметров в URL, которые следует игнорировать (т. е. считать страницы с такими параметрами одной и той же страницей).
Синтаксис:
Clean-param: param1[¶m2¶m3&..¶mN] [path]
Где param1…paramN это список параметров, разделенных символом &, а [path] это опциональный префикс URL для которого нужно применять это правило (по аналогии с Allow/Disallow).
Директив может быть несколько. Длина правила – не более 500 символов.
Пример:
# Разрешить Яндексу индексировать всё # кроме страниц с параметром session_id в папке /catalog/ User-agent: Yandex Disallow: Clean-param: session_id /catalog/
Sitemap
Указывает на расположение XML-карт сайта. Таких директив может быть несколько.
Директива Sitemap является межсекционной – не важно в каком блоке User-agent или месте файла она будет указана. Все роботы будут учитывать все директивы Sitemap в вашем файле robots.txt.
Пример:
Sitemap: https://www.site.ru/sitemap_index.xml
Host
Межсекционная директива для указания основного хоста. Раньше поддерживалась Яндексом. Теперь поддерживается только роботом поиска Mail.ru. Ее наличие в файле не является какой-то ошибкой, но и пользы от нее немного, т. к. доля органического трафика с поиска Mail.ru обычно очень низкая (порядка 1%).
Пример:
Host: https://www.site.ru
Crawl-delay
Устаревшая директива, которая использовалась для указания задержки между обращениями робота к сайту. Теперь управлять нагрузкой робота на сайте можно в Яндекс Вебмастере и Google Search Console. Директиву Crawl-delay не поддерживает ни Яндекс, ни Google.
Что еще важно знать про robots.txt
- Регистр букв имеет значение. Папки /aaa/ и /AAA/ это разные папки и для них нужны разные директивы.
- Кириллица – не поддерживается. Как она не поддерживается в URL и в названиях доменов. В файле robots.txt кириллические папки/файлы и названия доменов должны быть указаны в закодированном виде.
- Google считает, что файл robots.txt управляет сканированием, а не индексацией. На практике это значит, что если какие-то страницы сайта Google уже нашел и проиндексировал (например, на них были ссылки с других сайтов), то запрет их индексации в robots. txt не поможет исключить их из индекса. Для этого нужно применять метатег robots на самой странице. При этом, чтобы Google это тег увидел и учёл – страница не должна быть закрыта в robots.txt. Звучит это довольно абсурдно, но работает именно так, к сожалению.
- Прежде чем залить файл на «боевой» домен – проверьте его правильность с помощью соответствующих инструментов в Яндекс Вебмастере и Google Search Console.
Подробнее о файле robots.txt в справке поисковых систем:
- https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
- https://developers.google.com/search/docs/advanced/robots/intro?hl=ru
Что такое robots.txt и зачем вообще нужен индексный файл
Файл robots.txt вместе с xml-картой несёт, пожалуй, самую важную информацию о ресурсе: он показывает роботам поисковых систем, как именно «читать» сайт, какие страницы важны, а какие следует пропустить. Еще robots.txt — первая страница, на которую стоит смотреть, если на сайт внезапно упал трафик.
Что за роботс ти экс ти?
Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP. Файл дает поисковым роботам рекомендации: какие страницы/файлы стоит сканировать. Если файл будет содержать символы не в UTF-8, а в другой кодировке, поисковые роботы могут неправильно их обработать. Правила, перечисленные в файле robots.txt, действительны только в отношении того хоста, протокола и номера порта, где размещен файл.
Файл должен располагаться в корневом каталоге в виде обычного текстового документа и быть доступен по адресу: https://site.com.ua/robots.txt.
В других файлах принято ставить отметку ВОМ (Byte Order Mark). Это Юникод-символ, который используется для определения последовательности в байтах при считывании информации. Его кодовый символ — U+FEFF. В начале файла robots.txt отметка последовательности байтов игнорируется.
Google установил ограничение по размеру файла robots. txt — он не должен весить больше 500 Кб.
Ладно, если вам интересны сугубо технические подробности, файл robots.txt представляет собой описание в форме Бэкуса-Наура (BNF). При этом используются правила RFC 822.
При обработке правил в файле robots.txt поисковые роботы получают одну из трех инструкций:
- частичный доступ: доступно сканирование отдельных элементов сайта;
- полный доступ: сканировать можно все;
- полный запрет: робот ничего не может сканировать.
При сканировании файла robots.txt роботы получают такие ответы:
- 2xx — сканирование прошло удачно;
- 3xx — поисковый робот следует по переадресации до тех пор, пока не получит другой ответ. Чаще всего есть пять попыток, чтобы робот получил ответ, отличный от ответа 3xx, затем регистрируется ошибка 404;
- 4xx — поисковый робот считает, что можно сканировать все содержимое сайта;
- 5xx — оцениваются как временные ошибки сервера, сканирование полностью запрещается. Робот будет обращаться к файлу до тех пор, пока не получит другой ответ.Поисковый робот Google может определить, корректно или некорректно настроена отдача ответов отсутствующих страниц сайта, то есть, если вместо 404 ошибки страница отдает ответ 5xx, в этом случае страница будет обрабатываться с кодом ответа 404.
Пока что неизвестно, как обрабатывается файл robots.txt, который недоступен из-за проблем сервера с выходом в интернет.
Зачем нужен файл robots.txt
Например, иногда роботам не стоит посещать:
- страницы с личной информацией пользователей на сайте;
- страницы с разнообразными формами отправки информации;
- сайты-зеркала;
- страницы с результатами поиска.
Важно: даже если страница находится в файле robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.
Так роботы поисковых систем видят сайт с файлом robots. txt и без него:
Без robots.txt та информация, которая должна быть скрыта от посторонних глаз, может попасть в выдачу, а из-за этого пострадаете и вы, и сайт.
Так робот поисковых систем видит файл robots.txt:
Google обнаружил файл robots.txt на сайте и нашел правила, по которым следует сканировать страницы сайта
Как создать файл robots.txt
С помощью блокнота, Notepad, Sublime, либо любого другого текстового редактора.
В содержании файла должны быть прописаны инструкция User-agent и правило Disallow, к тому же есть еще несколько второстепенных правил.
User-agent — визитка для роботов
User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в файле robots.txt. На данный момент известно 302 поисковых робота. Чтобы не прописывать всех по отдельности, стоит использовать запись:
Она говорит о том, что мы указываем правила в robots.txt для всех поисковых роботов.
Для Google главным роботом является Googlebot. Если мы хотим учесть только его, запись в файле будет такой:
В этом случае все остальные роботы будут сканировать контент на основании своих директив по обработке пустого файла robots.txt.
Для Yandex главным роботом является… Yandex:
Другие специальные роботы:
- Mediapartners-Google — для сервиса AdSense;
- AdsBot-Google — для проверки качества целевой страницы;
- YandexImages — индексатор Яндекс.Картинок;
- Googlebot-Image — для картинок;
- YandexMetrika — робот Яндекс.Метрики;
- YandexMedia — робот, индексирующий мультимедийные данные;
- YaDirectFetcher — робот Яндекс.Директа;
- Googlebot-Video — для видео;
- Googlebot-Mobile — для мобильной версии;
- YandexDirectDyn — робот генерации динамических баннеров;
- YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
- YandexMarket— робот Яндекс.Маркета;
- YandexNews — робот Яндекс. Новостей;
- YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
- YandexPagechecker — валидатор микроразметки;
- YandexCalendar — робот Яндекс.Календаря.
Disallow — расставляем «кирпичи»
Disallow дает рекомендацию, какую именно информацию не стоит сканировать.
Такая запись открывает для сканирования весь сайт:
А эта запись говорит о том, что абсолютно весь контент на сайте запрещен для сканирования:
Ее стоит использовать, если сайт находится в процессе доработок, и вы не хотите, чтобы он в нынешнем состоянии засветился в выдаче.
Важно снять это правило, как только сайт будет готов к тому, чтобы его увидели пользователи. К сожалению, об этом забывают многие вебмастера.
Пример. Как прописать правило Disallow, чтобы дать инструкции роботам не просматривать содержимое папки /papka/:
Чтобы роботы не сканировали конкретный URL:
Чтобы роботы не сканировали конкретный файл:
Чтобы роботы не сканировали все файлы определенного разрешения на сайте:
Данная строка запрещает индексировать все файлы с расширением . gif
Allow — направляем роботов
Allow разрешает сканировать какой-либо файл/директиву/страницу. Допустим, необходимо, чтобы роботы могли посмотреть только страницы, которые начинались бы с /catalog, а весь остальной контент закрыть. В этом случае прописывается следующая комбинация:
Правила Allow и Disallow сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.
Host — выбираем зеркало сайта
Host — одно из обязательных для robots.txt правил, оно сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.
Зеркало сайта — точная или почти точная копия сайта, доступная по разным адресам.
Робот не будет путаться при нахождении зеркал сайта и поймет, что главное зеркало указано в файле robots.txt. Адрес сайта указывается без приставки «https://», но если сайт работает на HTTPS, приставку «https://» указать нужно.
Как необходимо прописать это правило:
Пример файла robots.txt, если сайт работает на протоколе HTTPS:
Sitemap — медицинская карта сайта
Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу https://site.ua/sitemap.xml. При каждом обходе робот будет смотреть, какие изменения вносились в этот файл, и быстро освежать информацию о сайте в базах данных поисковой системы.
Инструкция должна быть грамотно вписана в файл:
Crawl-delay — секундомер для слабых серверов
Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта. Данное правило актуально, если у вас слабый сервер. В таком случае возможны большие задержки при обращении поисковых роботов к страницам сайта. Этот параметр измеряется в секундах.
Clean-param — охотник за дублирующимся контентом
Clean-param помогает бороться с get-параметрами для избежания дублирования контента, который может быть доступен по разным динамическим адресам (со знаками вопроса). Такие адреса появляются, если на сайте есть различные сортировки, id сессии и так далее.
Допустим, страница доступна по адресам:
www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1
www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1
В таком случае файл robots.txt будет выглядеть так:
Здесь ref указывает, откуда идет ссылка, поэтому она записывается в самом начале, а уже потом указывается остальная часть адреса.
Но прежде чем перейти к эталонному файлу, необходимо еще узнать о некоторых знаках, которые применяются при написании файла robots.txt.
Символы в robots.txt
Основные символы файла — «/, *, $, #».
С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами. Например, если стоит один слеш в правиле Disallow, мы запрещаем сканировать весь сайт. С помощью двух знаков слэш можно запретить сканирование какой-либо отдельной директории, например: /catalog/.
Такая запись говорит, что мы запрещаем сканировать все содержимое папки catalog, но если мы напишем /catalog, запретим все ссылки на сайте, которые будут начинаться на /catalog.
Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.
Эта запись говорит, что все роботы не должны индексировать любые файлы с расширением .gif в папке /catalog/
Знак доллара «$» ограничивает действия знака звездочки. Если необходимо запретить все содержимое папки catalog, но при этом нельзя запретить урлы, которые содержат /catalog, запись в индексном файле будет такой:
Решетка «#» используется для комментариев, которые вебмастер оставляет для себя или других вебмастеров. Робот не будет их учитывать при сканировании сайта.
Например:
Как выглядит идеальный robots.txt
Такой файл robots.txt можно разместить почти на любом сайте:
Файл открывает содержимое сайта для индексирования, прописан хост и указана карта сайта, которая позволит поисковым системам всегда видеть адреса, которые должны быть проиндексированы. Отдельно прописаны правила для Яндекса, так как не все роботы понимают инструкцию Host.
Но не спешите копировать содержимое файл к себе — для каждого сайта должны быть прописаны уникальные правила, которые зависит от типа сайта и CMS. поэтому тут стоит вспомнить все правила при заполнении файла robots.txt.
Как проверить файл robots.txt
Если хотите узнать, правильно ли заполнили файл robots.txt, проверьте его в инструментах вебмастеров Google и Яндекс. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.
Как не нужно заполнять файл robots.txt
Часто при заполнении индексного файла допускаются досадные ошибки, причем они связаны с обычной невнимательностью или спешкой. Чуть ниже — чарт ошибок, которые я встречала на практике.
1. Перепутанные инструкции:
Правильный вариант:
2. Запись нескольких папок/директорий в одной инструкции Disallow:
Такая запись может запутать поисковых роботов, они могут не понять, что именно им не следует индексировать: то ли первую папку, то ли последнюю, — поэтому нужно писать каждое правило отдельно.
3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT или как-то иначе.
4. Нельзя оставлять пустым правило User-agent — нужно сказать, какой робот должен учитывать прописанные в файле правила.
5. Лишние знаки в файле (слэши, звездочки).
6. Добавление в файл страниц, которых не должно быть в индексе.
Нестандартное применение robots.txt
Кроме прямых функций индексный файл может стать площадкой для творчества и способом найти новых сотрудников.
Вот сайт, в котором robots.txt сам является маленьким сайтом с рабочими элементами и даже рекламным блоком.
Хотите что-то поинтереснее? Ловите ссылку на robots.txt со встроенной игрой и музыкальным сопровождением.
Многие бренды используют robots.txt, чтобы еще раз заявить о себе:
В качестве площадки для поиска специалистов файл используют в основном SEO-агентства. А кто же еще может узнать о его существовании? 🙂
А у Google есть специальный файл humans. txt, чтобы вы не допускали мысли о дискриминации специалистов из кожи и мяса.
Когда у вебмастера появляется достаточно свободного времени, он часто тратит его на модернизацию robots.txt:
Хотите, чтобы все страницы вашего сайта заходили в индекс быстро? Мы выберем для вас оптимальную стратегию SEO-продвижения:
Хочу быстро найти клиентов онлайн
Выводы
С помощью Robots.txt вы сможете задавать инструкции поисковым роботам, рекламировать себя, свой бренд, искать специалистов. Это большое поле для экспериментов. Главное, помните о грамотном заполнении файла и типичных ошибках.
Правила, они же директивы, они же инструкции файла robots.txt:
- User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в robots.txt.
- Disallow дает рекомендацию, какую именно информацию не стоит сканировать.
- Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу https://site. ua/sitemap.xml.
- Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта.
- Host сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.
- Allow разрешает сканировать какой-либо файл/директиву/страницу.
- Clean-param помогает бороться с get-параметрами для избежания дублирования контента.
Знаки при составлении robots.txt:
- Знак доллара «$» ограничивает действия знака звездочки.
- С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами.
- Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.
- Решетка «#» используется, чтобы обозначить комментарии, которые пишет вебмастер для себя или других вебмастеров.
Используйте индексный файл с умом — и сайт всегда будет в выдаче.
правильный пример на WordPress для Яндекса и Google
Всем привет! Сегодня я бы хотел Вам рассказать про файл robots. txt. Да, про него очень много чего написано в интернете, но, если честно, я сам очень долгое время не мог понять, как же создать правильный robots.txt. В итоге я сделал один и он стоит на всех моих блогах. Проблем с индексацией сайта я не замечаю, robots.txt работает просто великолепно.
Robots.txt для WordPress
А зачем, собственно говоря, нужен robots.txt? Ответ все тот же – продвижение сайта в поисковых системах. То есть составление robots.txt – это одно из частей поисковой оптимизации сайта (кстати, очень скоро будет урок, который будет посвящен всей внутренней оптимизации сайта на WordPress. Поэтому не забудьте подписаться на RSS, чтобы не пропустить интересные материалы.).
Одна из функций данного файла – запрет индексации ненужных страниц сайта. Также в нем задается адрес карты сайта sitemap.xml и прописывается главное зеркало сайта (сайт с www или без www).
Примечание: для поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt. Чтобы узнать, какое главное (с www или без www), просто наберите адрес своего сайта в браузере, к примеру, с www, если Вас автоматически перебросит на тот же сайт без www, значит главное зеркало Вашего сайта без www. Надеюсь правильно объяснил.
Было:
Стало (после перехода на сайт, www автоматически удалились, и сайт стал без www):
Так вот, этот заветный, по-моему, правильный robots.txt для WordPress Вы можете увидеть ниже.
Правильный Robots.txt для WordPress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: wpnew. ru
Sitemap: https://wpnew.ru/sitemap.xml.gz
Sitemap: https://wpnew.ru/sitemap.xml
Все что дано выше, Вам нужно скопировать в текстовой документ с расширением .txt, то есть, чтобы название файла было robots.txt. Данный текстовой документ Вы можете создать, к примеру, с помощью программы Notepad++. Только, не забудьте, пожалуйста, изменить в последних трех строчках адрес wpnew.ru на адрес своего сайта. Файл robots.txt должен располагаться в корне блога, то есть в той же папке, где находятся папки wp-content, wp-admin и др. .
Те, кому же лень создавать данный текстовой файл, можете просто скачать robots.txt и также там подкорректировать 3 строчки.
Хочу отметить, что в техническими частями, о которых речь пойдет ниже, себя сильно загружать не нужно. Привожу их для “знаний”, так сказать общего кругозора, чтобы знали, что и зачем нужно.
Итак, строка:
User-agent
задает правила для какого-то поисковика: к примеру “*” (звездочкой) отмечено, что правила для всех поисковиков, а то, что ниже
User-agent: Yandex
означает, что данные правила только для Яндекса.
Disallow
Здесь же Вы “засовываете” разделы, которые НЕ нужно индексировать поисковикам. К примеру, на странице https://wpnew.ru/tag/seo у меня идет дубль статей (повторение) с обычными статьями, а дублирование страниц отрицательно сказывается на поисковом продвижении, поэтому, крайне желательно, данные секторы нужно закрыть от индексации, что мы и делаем с помощью этого правила:
Disallow: /tag
Так вот, в том robots.txt, который дан выше, от индексации закрыты почти все ненужные разделы сайта на WordPress, то есть просто оставьте все как есть.
Host
Здесь мы задаем главное зеркало сайта, о котором я рассказывал чуть выше.
Sitemap
В последних двух строчках мы задаем адрес до двух карт сайта, созданные с помощью плагина Google XML Sitemaps.
Возможные проблемы
Если у Вас на блоге не стоит ЧПУ (именно так у меня происходит с тем сайтом, которого я занимаюсь продвижением), то с тем robots.txt, который дан выше, могут быть проблемы. Напомню, что без ЧПУ ссылки на сайте на посты выглядят примерно следующим образом:
А вот из-за этой строчки в robots. txt, у меня перестали индексироваться посты сайта:
Disallow: /*?*
Как видите, эта самая строка в robots.txt запрещает индексирование статей, что естественно нам нисколько не нужно. Чтобы исправить это, просто нужно удалить эти 2 строчки (в правилах для всех поисковиков и для Яндекса) и окончательный правильный robots.txt для WordPress сайта без ЧПУ будет выглядеть следующим образом:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: wpnew. ru
Sitemap: https://wpnew.ru/sitemap.xml.gz
Sitemap: https://wpnew.ru/sitemap.xml
Анализ robots.txt
Чтобы проверить, правильно ли мы составили файл robots.txt я рекомендую Вам воспользоваться сервисом Яндекс Вебмастер (как регистрироваться в данном сервисе я рассказывал тут).
Заходим в раздел Настройки индексирования –> Анализ robots.txt:
Уже там нажимаете на кнопку “Загрузить robots.txt с сайта”, а затем нажимаете на кнопку “Проверить”:
Если Вы увидите примерно следующее сообщение, значит у Вас правильный robots.txt для Яндекса:
Также Вы можете в “Список URL” добавить адрес любой статьи сайта, чтобы проверить не запрещает ли robots.txt индексирование данной страницы:
Как видите, никакого запрета на индексирование страницы со стороны robots.txt мы не видим, значит все в порядке :).
Надеюсь больше вопросов, типа: как составить robots.txt или как сделать правильным данный файл у Вас не возникнет. В этом уроке я постарался показать Вам правильный пример robots.txt:
Вы можете посмотреть другие варианты, как еще можно составлять robots.txt.
До скорой встречи!
P.s. Совсем недавно я добавил блог в Яндекс Каталог, что же интересного произошло? 🙂
Анализ robots txt yandex
Поисковые роботы — краулеры начинают знакомство с сайтом с чтения файла robots.txt. В нем содержится вся важная для них информация. Владельцы сайтов должны создавать и периодически просматривать файл robots.txt. От корректности его работы зависит скорость индексации страниц и место в результатах поиска.
Не является обязательным элементом сайта, но его наличие желательно, т.к. используется владельцами сайтов для управления поисковыми роботами. Установить разные уровни доступа к сайту, запрет на индексацию всего сайта, отдельных страниц, разделов или файлов. Для ресурсов с высокой посещаемостью ограничьте время индексации и запретите доступ роботам, не относящимся к основным поисковым системам. Это снизит нагрузку на сервер.
Создание. Создайте файл в текстовом редакторе, таком как Блокнот или аналогичный. Убедитесь, что размер файла не превышает 32 КБ. Выберите для файла кодировку ASCII или UTF-8. Обратите внимание, что файл должен быть уникальным. Если сайт создан на CMS, то он будет сгенерирован автоматически.
Поместите созданный файл в корневой каталог сайта рядом с основным файлом index.html. Для этого используйте FTP-доступ. Если сайт сделан на CMS, то файл обрабатывается через административную панель. Когда файл создан и работает правильно, он доступен в браузере.
При отсутствии файла robots.txt поисковые роботы собирают всю информацию, относящуюся к сайту. Не удивляйтесь, увидев в результатах поиска пустые страницы или служебную информацию. Определите, какие разделы сайта будут доступны пользователям, а остальные закройте от индексации.
Экспертиза. Периодически проверяйте, все ли работает правильно. Если краулер не получает ответа 200 OK, то он автоматически предполагает, что файл не существует, а сайт полностью открыт для индексации. Коды ошибок следующие:
3xx — перенаправить ответы. Робот перенаправляется на другую страницу или на главную. Создавайте до пяти редиректов на одной странице. Если их больше, робот пометит такую страницу как ошибку 404. То же самое относится и к редиректам, основанным на принципе бесконечного цикла;
4xx — ответы об ошибках сайта. Если сканер получает ошибку 400 из файла robots.txt, он делает вывод, что файл не существует и все содержимое доступно. Это также относится к ошибкам 401 и 403;
5xx — ответы об ошибках сервера. Искатель будет «стучать», пока не получит ответ, отличный от 500-го.
Правила создания
Начнем с приветствия. Каждый файл должен начинаться с приветствия агента пользователя. С его помощью поисковые системы будут определять уровень открытости.
Код | Значение |
Агент пользователя: * | Доступно всем |
Агент пользователя: Яндекс | Доступен роботу Яндекса |
Агент пользователя: Googlebot | Доступно роботу Googlebot |
Агент пользователя: Mail. ru | Доступен роботу Mail.ru |
Добавьте отдельные директивы для роботов. При необходимости добавьте директивы для специализированных поисковых ботов Яндекса.
Однако в этом случае директивы * и Яндекс учитываться не будут.
У Google есть свои боты:
Сначала запрещаем, потом разрешаем. Действовать двумя директивами: Allow — разрешаю, Disallow — запрещаю. Обязательно включите директиву disallow, даже если доступ разрешен ко всему сайту. Эта директива является обязательной. Если он отсутствует, сканер может неправильно прочитать остальную информацию. Если на сайте нет контента с ограниченным доступом, оставьте директиву пустой.
Работа с разными уровнями. В файле можно указать настройки на четырех уровнях: сайт, страница, папка и тип контента. Допустим, вы хотите скрыть изображения от индексации. Это можно сделать на уровне:
- папки — запретить: /images/
- тип содержимого — запретить: /*. jpg
Группировать директивы в блоки и разделять их пустой строкой. Не записывайте все правила в одну строку. Используйте отдельное правило для каждой страницы, краулера, папки и т.д. Также не путайте инструкции: пишите бота в юзер-агенте, а не в директиве allow/disallow.
Не | Да |
Запретить: Яндекс | Агент пользователя: Яндекс disallow: / |
Запретить: /css/ /images/ | Запретить: /css/ Запретить: /images/ |
С учетом регистра. Введите имя файла строчными буквами. Яндекс в пояснительной документации указывает, что регистр для его ботов не важен, но Google просит учитывать регистр. Также возможно, что имена файлов и папок чувствительны к регистру.
Укажите редирект 301 на главное зеркало сайта . Раньше для этого использовалась директива Host, но с марта 2018 года она больше не нужна. Если он уже есть в файле robots.txt, удалите его или оставьте на свое усмотрение; роботы игнорируют эту директиву.
Чтобы указать главное зеркало, поставьте 301 редирект на каждую страницу сайта. Если редиректа нет, поисковик самостоятельно определит, какое зеркало считать основным. Чтобы исправить зеркало сайта, просто введите переадресацию 301 страницы и подождите несколько дней.
Написать директиву Sitemap (карта сайта). Файлы sitemap.xml и robots.txt дополняют друг друга. Проверить, чтобы:
- файлы не противоречили друг другу; Из обоих файлов исключена
- страница; В обоих файлах разрешена
- страница.
При анализе содержимого robots.txt обратите внимание, включена ли карта сайта в одноименную директиву. Пишется так: Карта сайта: www.yoursite.ru/sitemap.xml
Укажите комментарии с помощью символа #. Все, что пишется после этого, игнорируется сканером.
Проверка файлов
Анализ robots. txt с помощью инструментов разработчика: Яндекс.Вебмастер и Google Robots Testing Tool. Обратите внимание, что Яндекс и Google проверяют только соответствие файла их собственным требованиям. Если файл корректен для яндекса, это не значит, что он корректен для роботов гугла, так что проверяйте в обеих системах.
Если вы обнаружите ошибки и исправите файл robots.txt, поисковые роботы не смогут мгновенно прочитать изменения. Обычно повторное сканирование страницы происходит раз в день, но часто занимает гораздо больше времени. Через неделю проверьте файл, чтобы убедиться, что поисковые системы используют новую версию.
Регистрация в Яндекс.Вебмастере
Сначала подтвердите права на сайт. После этого он появится в панели Вебмастера. Введите название сайта в поле и нажмите проверить. Результат проверки будет доступен ниже.
Дополнительно проверьте отдельные страницы. Для этого введите адреса страниц и нажмите «проверить».
Тестирование в Google Robots Testing Tool
Позволяет проверить и отредактировать файл в административной панели. Выдает сообщение о логических и синтаксических ошибках. Исправьте текст файла прямо в редакторе Google. Но обратите внимание, что изменения не сохраняются автоматически. После исправления robots.txt скопируйте код из веб-редактора и создайте новый файл с помощью блокнота или другого текстового редактора. Затем загрузите его на сервер в корневой каталог.
Запомнить
Файл robots.txt помогает поисковым роботам индексировать сайт. Закрывайте сайт на время разработки, в остальное время — весь сайт или его часть должны быть открыты. Правильно работающий файл должен возвращать ответ 200.
Файл создан в обычном текстовом редакторе. Во многих CMS в административной панели предусмотрено создание файла. Убедитесь, что размер не превышает 32 КБ. Поместите его в корневой каталог сайта.
Заполнить файл по правилам. Начните с кода «User-agent:». Пишите правила блоками, разделяя их пустой строкой. Следуйте принятому синтаксису.
Разрешить или запретить индексирование для всех или выбранных поисковых роботов. Для этого укажите название поискового робота или поставьте значок *, что означает «для всех».
Работа с разными уровнями доступа: сайт, страница, папка или тип файла.
Включить в файл указание на главное зеркало с помощью постраничной переадресации 301 и карту сайта с помощью директивы sitemap.
Используйте инструменты разработчика для анализа файла robots.txt. Это Яндекс.Вебмастер и Google Robots Testing Tools. Сначала подтвердите права на сайт, потом проверяйте. В гугле сразу отредактируйте файл в веб-редакторе и уберите ошибки. Отредактированные файлы не сохраняются автоматически. Загрузите их на сервер вместо оригинального файла robots.txt. Через неделю проверьте, используют ли поисковые системы новую версию.
Материал подготовила Светлана Сирвида-Льоренте.
Каждый день в Интернете появляются решения той или иной проблемы. Нет денег на дизайнера? Используйте один из тысяч бесплатных шаблонов. Не хотите нанимать SEO-специалиста? Воспользуйтесь услугами какого-нибудь известного бесплатного сервиса, сами прочитайте пару статей.
Уже давно нет необходимости писать тот же robots.txt с нуля. Кстати, это специальный файл, который есть практически на любом сайте, и в нем содержатся инструкции для поисковых роботов. Синтаксис команды очень прост, но на создание собственного файла все равно потребуется время. Лучше посмотреть на другом сайте. Здесь есть несколько предостережений:
Сайт должен быть на том же движке, что и ваш. В принципе, сегодня в интернете очень много сервисов, где можно узнать название cms практически любого веб-ресурса.
Это должен быть более-менее успешный сайт, хорошо работающий с поисковым трафиком. Это означает, что файл robots.txt в порядке.
Итак, чтобы просмотреть этот файл, вам нужно набрать в адресной строке: domain-name.zone/robots.txt
Все невероятно просто, правда? Если адрес не найден, значит такого файла нет на сайте, либо доступ к нему закрыт. Но в большинстве случаев вы увидите перед собой содержимое файла:
В принципе, даже не особо разбирающийся в коде человек быстро поймет, что тут писать. Команда allow разрешает что-либо индексировать, а команда disallow запрещает это. User-agent — это указание поисковых роботов, которым адресованы инструкции. Это необходимо, когда вам нужно указать команды для конкретной поисковой системы.
Что делать дальше?
Скопируйте все и измените для своего сайта. Как изменить? Я уже говорил, что движки сайтов должны совпадать, иначе менять что-либо бессмысленно — нужно переписывать абсолютно все.
Итак, вам нужно будет пройтись по строкам и определить, какие из них присутствуют на вашем сайте, а какие нет. На скриншоте выше вы видите пример файла robots.txt для сайта wordpress, а в отдельной директории находится форум. Выход? Если у вас нет форума, все эти строчки надо удалить, так как таких разделов и страниц у вас просто нет, зачем тогда их закрывать?
Простейший robots.txt может выглядеть так:
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Разрешить: /wp-content/uploads/
Агент пользователя: * Запретить: /wp-admin Запретить: /wp-includes Запретить: /wp-content Разрешить: /wp-content/uploads/ |
Все вы, наверное, знаете стандартную структуру папок в wordpress, если хоть раз устанавливали этот движок. Это папки wp-admin, wp-content и wp-includes. Обычно все 3 закрыты от индексации, т.к. содержат чисто технические файлы, необходимые для работы движка, плагинов и шаблонов.
Открыт каталог загрузки, так как он содержит изображения, и они обычно индексируются.
В общем надо пройтись по скопированному robots.txt и посмотреть, что на самом деле написано у вас на сайте, а что нет. Самому, конечно, будет сложно определить. Могу только сказать, что если что-то не удалять, то ничего страшного, просто будет лишняя строка, что не навредит (потому что раздела нет).
Действительно ли настройка robots.txt так важна?
Конечно, вы должны иметь этот файл и хотя бы закрывать через него основные каталоги. Но так ли уж важно его составить? Как показывает практика, нет. Я лично вижу сайты на одних и тех же движках с совершенно разными robots.txt, которые одинаково успешно продвигаются в поисковых системах О.
Я не спорю, что можно сделать какую-то ошибку. Например, закройте изображения или оставьте ненужную директорию открытой, но ничего сверхстрашного не произойдет. Во-первых, потому что поисковые системы сегодня умнее и могут игнорировать некоторые инструкции из файла. Во-вторых, про настройку robots.txt написаны сотни статей, и из них можно кое-что понять.
Я видел файлы, в которых было 6-7 строк, запрещающих индексацию пары каталогов. Еще я видел файлы с сотней-двумя строками кода, где было закрыто все, что можно было. Оба сайта работали хорошо.
В wordpress есть так называемые дубликаты. Это плохо. Многие борются с этим, закрывая такие дубликаты, как это:
Disallow: /wp-feed Disallow: */trackback Disallow: */feed Disallow: /tag/ Disallow: /archive/
Disallow: /wp-feed Здесь надо бороться иначе. Например, с помощью редиректов или плагинов, которые уничтожат дубликаты. Впрочем, это тема для отдельной статьи. Где находится robots.txt?Этот файл всегда находится в корне сайта, поэтому мы можем получить к нему доступ, введя адрес сайта и имя файла через косую черту. На мой взгляд, здесь все максимально просто. В общем, сегодня мы рассмотрели вопрос, как посмотреть содержимое файла robots.txt, скопировать его и изменить под свои нужды. Также в ближайшее время напишу еще 1-2 статьи по настройке, т.к. в этой статье мы не все осветили. Кстати, много информации по продвижению сайтов-блогов вы также можете найти у нас. И на этом я прощаюсь с вами. |
Правильно составленный файл robots.txt помогает корректно проиндексировать сайт и устраняет дублированный контент, обнаруженный в любой CMS. Я знаю, что многих авторов просто пугает необходимость лазить куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх необходимо преодолеть. Поверьте мне, ваш блог не рухнет, даже если вы поместите свой собственный портрет в robots.txt (т.е. испортите его!). Но, любые выгодные изменения повысят его статус в глазах поисковых систем.
Что такое файл robots.txt
Не буду претендовать на звание эксперта, мучая вас терминами.
Просто поделюсь своим довольно простым пониманием функций этого файла:robots.txt — это инструкция, дорожная карта для поисковых роботов, посещающих наш блог с проверкой. Нам просто нужно сказать им, какой контент является, так сказать, услугой, а какой является наиболее ценным контентом, к которому читатели стремятся (или должны стремиться) нам. И именно эта часть контента должна индексироваться и попадать в результаты поиска!
А что будет, если нам наплевать на такие инструкции? Все индексируется. А так как пути алгоритмов поисковых систем практически неисповедимы, анонс статьи, открывающейся по адресу архива, может показаться более актуальным для Яндекса или Google, чем полный текст статьи, находящейся по другому адресу. И посетитель, заглянув в блог, увидит совсем не то, что он хотел и что хотелось бы вам: не поста, а списки всех статей месяца… Итог ясен — скорее всего, он оставлять.
Хотя есть примеры сайтов, которые вообще не имеют робота, но занимают приличные позиции в поисковой выдаче, но это конечно исключение, а не правило.
Из чего состоит файл robots.txt
А вот переписыванием заниматься не хочу. Есть вполне понятные пояснения из первых рук — например, в разделе помощи Яндекса. Я настоятельно рекомендую прочитать их не один раз. Но я постараюсь помочь вам преодолеть первое оцепенение перед обилием терминов, описав общую структуру файла robots.txt.
В самом верху в начале robots.txt заявляем для кого пишем инструкцию:
User agent: Яндекс
Конечно у каждого уважающего себя поисковика есть куча роботов — именных и безымянный. Пока вы не освоите мастерство robots.txt, лучше всего делать вещи простыми и обобщаемыми. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:
User-Agent: * — это все, любые, роботы
Также указываем основное зеркало сайта — адрес, который будет участвовать в поиске. Это особенно верно, если у вас есть несколько зеркал. Вы также можете указать некоторые другие параметры. Но самое главное для нас, все-таки, это возможность закрыть служебные части блога от индексации.
Вот примеры запрета индексации:
Запретить: /cgi-bin* — файлы скриптов;
Запретить: /wp-admin* — административная консоль;
Запретить: /wp-includes* — служебные папки;
Запретить: /wp-content/plugins* — служебные папки;
Запретить: /wp-content/cache* — служебные папки;
Запретить: /wp-content/themes* — служебные папки;
Запретить: */feed
Запретить: /comments* — комментарии;
Запретить: */comments
Запретить: /*/?replytocom=* — ответы на комментарии
Запретить: /tag/* — теги
Запретить: /archive/* — архивы
Запретить: /category/* — категории
Как создать свой файл robots.txt
Самый простой и очевидный способ — найти пример готового файла robots.txt в каком-нибудь блоге и торжественно переписать его под себя. Хорошо, если при этом авторы не забудут заменить адрес блога примера на адрес своего детища.
Роботы любого сайта доступны по адресу:
https://website/robots. txt
Я сделал то же самое и не считаю себя вправе отговаривать вас. Единственное, что я прошу, это: разберись что написано в скопированном файле robots.txt! Воспользуйтесь помощью Яндекса, любых других источников информации — расшифруйте все строки. Тогда вы наверняка увидите, что какие-то правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.
Теперь посмотрим, как проверить правильность и эффективность нашего файла robots.txt.
Поскольку все, что связано с файлом robots.txt, поначалу может показаться слишком туманным и даже опасным, хочу показать вам простой и понятный инструмент для его проверки. Это очевидный способ помочь вам не только проверить, но и подтвердить ваш robots.txt, заполнить его всеми необходимыми инструкциями и убедиться, что роботы поисковых систем понимают, что вы от них хотите.
Проверка файла robots.txt в Яндексе
Яндекс Вебмастер позволяет узнать отношение поискового робота этой системы к нашему творению. Для этого, очевидно, нужно открыть информацию, относящуюся к блогу и:
- перейти на вкладку Сервис->Анализ robots.txt
- нажать кнопку «загрузить» и будем надеяться, что вы разместили robots. txt куда нужно и робот его найдет 🙂 (если не найдет, проверьте, где находится ваш файл: он должен быть в корне блога, где папки wp -admin, wp- include и т.д., а ниже отдельные файлы — среди них должен быть robots.txt)
- нажмите «Проверить».
Но самая важная информация находится в соседней вкладке — «Используемые разделы»! Ведь на самом деле нам важно, чтобы робот понимал основную часть информации — а все остальное пропускал:
На примере мы видим, что Яндекс понимает все, что касается его робота (строки с 1 по 15 и 32) — это здорово!
Проверка файла robots.txt в Google
У Google также есть инструмент проверки, который покажет нам, как эта поисковая система видит (или не видит) наш robots.txt:
- Инструменты Google для веб-мастеров (где ваш блог также должен быть зарегистрирован) имеют собственную службу для проверки файла robots. txt. Он находится на вкладке «Сканирование».
- Найдя файл, система анализирует его и выводит информацию об ошибках. Все просто.
На что следует обратить внимание при анализе файла robots.txt
Мы не зря рассмотрели инструменты анализа от двух важнейших поисковых систем — Яндекс и Google. Ведь нам нужно сделать так, чтобы каждый из них прочитал рекомендации, данные нами в robots.txt.
В приведенных здесь примерах видно, что Яндекс понимает инструкции, которые мы оставили его роботу, и игнорирует все остальные (хотя везде написано одно и то же, только директива User-agent: другая:)))
Важно понимать, что любые изменения в robots.txt необходимо вносить непосредственно в файл, находящийся в корневой папке вашего блога. То есть вам нужно открыть его в любом блокноте, чтобы переписать, удалить, добавить любые строки. Затем нужно сохранить его обратно в корень сайта и перепроверить реакцию на изменения в поисковых системах.
Нетрудно понять, что в нем написано, что нужно добавить. А заниматься продвижением блога без правильной настройки файла robots.txt (так, как вам нужно!) — усложните себе задачу.
Карта сайта значительно упрощает индексацию вашего блога. Карта сайта должна быть обязательной для каждого сайта и блога. Но также на каждом сайте и блоге должен быть файл robots. текст . Файл robots.txt содержит набор инструкций для поисковых роботов. Можно сказать — правила поведения поисковых роботов на вашем блоге. А также этот файл содержит путь к карте сайта вашего блога. И, действительно, при правильно составленном файле robots.txt поисковый робот не тратит драгоценное время на поиск карты сайта и индексацию ненужных файлов.
Что такое файл robots.txt?
robots.txt — этот текстовый файл, может быть создан в обычном «блокноте» расположенном в корне вашего блога с инструкциями для поисковых роботов.
Эти инструкции не позволяют поисковым роботам случайным образом индексировать все файлы вашего бога и нацелены на индексирование именно тех страниц, которые должны быть в поисковой выдаче.
С помощью данного файла вы можете отключить индексацию файлов движка WordPress. Или, скажем, секретный раздел вашего блога. Вы можете указать путь к карте вашего блога и главному зеркалу вашего блога. Под этим я подразумеваю ваше доменное имя с www и без www.
Индексация сайта с помощью и без robots.txt
На этом снимке экрана хорошо видно, как файл robots.txt запрещает индексацию определенных папок на сайте. Без файла роботу доступно все на вашем сайте.
Основные директивы robots.txt
Чтобы понять инструкции, содержащиеся в файле robots.txt, вам необходимо понять основные команды (директивы).
user-agent — эта команда указывает доступ роботов к вашему сайту. Используя эту директиву, вы можете создавать инструкции индивидуально для каждого робота.
User-agent: Яндекс — правила для робота Яндекса
User-agent: * — правила для всех роботов
Запретить и разрешить — директивы запрета и разрешения. С помощью директивы Disallow индексирование запрещается, а с помощью Allow разрешается.
Пример бана:
User-agent: *
Disallow: / — запрет всему сайту.
Агент пользователя: Яндекс
Запретить: /admin — запрещает роботу Яндекса доступ к страницам в папке администратора.
Пример разрешения:
User-agent: *
Разрешить: /photo
Запретить: / — запрет на весь сайт, кроме страниц, расположенных в папке фото.
Внимание! директива Disallow: без параметра разрешает все, а директива Allow: без параметра все запрещает. И директивы Allow без Disallow быть не должно.
Карта сайта — указывает путь к карте сайта в формате xml.
Карта сайта: https://site/sitemap.xml.gz
Карта сайта: https://site/sitemap.xml
Хост — директива определяет главное зеркало вашего блога. Считается, что эта директива прописана только для роботов Яндекса. Эту директиву следует разместить в самом конце файла robots.txt.
Агент пользователя: Яндекс
Запретить: /wp-includes
хост: сайт
Внимание! адрес главного зеркала указывается без указания протокола передачи гипертекста (http://).
Как создать robots.txt
Теперь, когда мы ознакомились с основными командами файла robots.txt, мы можем приступить к созданию нашего файла. Чтобы создать собственный файл robots.txt со своими настройками, вам нужно знать структуру своего блога.
Мы рассмотрим создание стандартного (универсального) файла robots.txt для блога WordPress. Вы всегда можете добавить в него свои настройки.
Итак, приступим. Нам понадобится обычный «блокнот», который есть в каждой операционной системе Windows. Или TextEdit на MacOS.
Откройте новый документ и вставьте в него следующие команды:
Агент пользователя: * Запретить: Карта сайта: https://site/sitemap.xml.gz Карта сайта: https://site/sitemap.xml Агент пользователя: Яндекс Запретить: /wp-login.php Запретить: /wp-register .php Запретить: /cgi-bin Запретить: /wp-admin Запретить: /wp-includes Запретить: /xmlrpc.php Запретить: /wp-content/plugins Запретить : /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow : /tag/ Disallow: /feed/ Disallow: */*/feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host : сайт
Не забудьте заменить параметры директив Sitemap и Host на свои.
Важно! при написании команд допускается только один пробел. Между директивой и параметром. Ни в коем случае не делайте пробелы после параметра или где угодно.
Пример : Disallow:/feed/
Этот пример файла robots.txt является универсальным и подходит для любого блога WordPress с URL-адресами CNC. Почитайте, что такое ЧПУ. Если вы не настроили ЧПУ, рекомендую удалить Disallow: /*?* Disallow: /?s= из предложенного файла
Загрузка файла robots.txt на сервер
Лучший способ для такого рода манипуляций — FTP-соединение. Читайте о том, как настроить FTP-соединение для TotolCommander. Или вы можете использовать файловый менеджер на вашем хостинге.
Я буду использовать FTP-подключение к TotolCommander.
Сеть > Подключиться к FTP-серверу.
Выберите нужное подключение и нажмите кнопку «Подключить».
Откройте корень блога и скопируйте наш файл robots.txt, нажав клавишу F5.
Скопируйте robots.txt на сервер
Теперь ваш файл robots.txt будет выполнять свои функции. Но я все же рекомендую разобрать robots.txt, чтобы убедиться в отсутствии ошибок.
Для этого вам потребуется войти в аккаунт вебмастера Яндекс или Google. Рассмотрим на примере Яндекс. Здесь можно провести анализ, даже не подтверждая права на сайт. Вам достаточно иметь почтовый ящик на Яндексе.
Открываем аккаунт Яндекс.Вебмастер.
На главной странице кабинета вебмастера открыть ссылку «Проверить роботов. txt» .
Для анализа вам нужно будет ввести адрес вашего блога и нажать кнопку « Скачать robots. txt с сайта «. После загрузки файла нажмите кнопку «Проверить».
Отсутствие записей с предупреждениями указывает на правильность создания файла robots.txt.
Результат будет показан ниже. Где ясно и понятно, какие материалы разрешено показывать поисковым роботам, а какие — запрещены.
Результат разбора файла robots.txt
Здесь вы также можете вносить изменения в robots.txt и экспериментировать, пока не получите желаемый результат. Но помните, файл, расположенный в вашем блоге, не меняется. Для этого нужно скопировать полученный здесь результат в блокнот, сохранить как robots.txt и скопировать блог себе.
Кстати, если вам интересно, как выглядит файл robots.txt в чьем-то блоге, вы можете легко найти его. Для этого нужно просто добавить /robots.txt к адресу сайта
https://website/robots.txt
Теперь ваш robots.txt готов. И помните, не откладывайте создание файла robots.txt, от этого будет зависеть индексация вашего блога.
Если вы хотите создать правильный robots.txt и при этом быть уверенным, что в индекс поисковика попадут только нужные страницы, то это можно сделать автоматически с помощью плагина.
Это все для меня. Желаю всем успехов. Если у вас есть вопросы или дополнения, пишите в комментариях.
До скорой встречи.
С уважением, Максим Зайцев.
Подписывайтесь на новые статьи!
Robots.txt — все, что нужно знать специалистам по поисковой оптимизации поисковые роботы. Этот файл особенно полезен для
управление краулинговым бюджетом и обеспечение того, чтобы поисковые системы эффективно проводили время на вашем сайте и сканировали только важные страницы.Для чего используется текстовый файл robots?
Файл robots.txt предназначен для того, чтобы сообщить сканерам и роботам, какие URL-адреса на вашем веб-сайте им не следует посещать. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес на каждый день.
Как Google объясняет в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом, закодированным в UTF-8. Записи файла (или строки) должны быть разделены символами CR, CR/LF или LF.
Следует помнить о размере файла robots.txt, так как у поисковых систем есть собственные ограничения на максимальный размер файла. Максимальный размер для Google составляет 500 КБ.
Где должен находиться файл robots.txt?
Файл robots.txt всегда должен находиться в корне домена, например:
Этот файл относится к протоколу и полному домену, поэтому robots.txt на https://www.example.com не влияет на сканирование https://www.example.com или https: //subdomain.example.com ; у них должны быть свои собственные файлы robots.txt.
Когда следует использовать правила robots.txt?
Как правило, веб-сайты должны стараться использовать файл robots.txt как можно меньше, чтобы контролировать сканирование. Гораздо лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Тем не менее, рекомендуется использовать robots.txt там, где это необходимо для предотвращения доступа поисковых роботов к разделам сайта с низким качеством, если эти проблемы не могут быть устранены в краткосрочной перспективе.
Google рекомендует использовать robots.txt только в случае возникновения проблем с сервером или проблем с эффективностью сканирования, например, когда робот Googlebot тратит много времени на сканирование неиндексируемого раздела сайта.
Некоторые примеры страниц, которые вы не хотите сканировать:
- Страницы категорий с нестандартной сортировкой , так как это обычно создает дублирование со страницей основной категории
- Пользовательский контент , который нельзя модерировать
- Страницы с конфиденциальной информацией
- Страницы внутреннего поиска , так как может быть бесконечное количество этих страниц результатов, что создает неудобства для пользователя и тратит впустую краулинговый бюджет
Когда не следует использовать robots.
txt?Файл robots.txt — полезный инструмент при правильном использовании, однако бывают случаи, когда это не лучшее решение. Вот несколько примеров, когда не следует использовать файл robots.txt для управления сканированием:
1. Блокировка Javascript/CSS
Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте для правильного отображения страниц, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые резко меняют взаимодействие с пользователем, но не могут быть просканированы поисковыми системами, могут привести к ручным или алгоритмическим санкциям.
Например, если вы показываете межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не имеет доступа, это может рассматриваться как маскировка, и рейтинг вашего контента может быть скорректирован соответствующим образом.
2. Блокировка параметров URL
Вы можете использовать robots. txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, так как там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.
Вы также можете поместить информацию во фрагмент URL-адреса ( /page#sort=price ), так как поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel=nofollow, чтобы сканеры не пытались получить к нему доступ.
3. Блокировка URL-адресов с обратными ссылками
Запрещение URL-адресов в файле robots.txt предотвращает переход ссылочного капитала на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитета, который проходят эти ссылки, и, как следствие, ваш общий рейтинг может ухудшиться.
4.
Деиндексация проиндексированных страницИспользование Disallow не приводит к деиндексации страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексации в значительной степени разделены.
5. Установка правил, игнорирующих сканеры социальных сетей
Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети могли получить доступ к этим страницам, чтобы можно было создать фрагмент страницы. Например, Facebook попытается посетить каждую страницу, которая публикуется в сети, чтобы предоставить соответствующий фрагмент. Учитывайте это при настройке правил robots.txt.
6. Блокировка доступа с промежуточных сайтов или сайтов разработки
Использование файла robots.txt для блокировки всего промежуточного сайта — не лучшая практика. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным из внешнего мира.
7. Когда нечего блокировать
Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы на любых страницах. В этой ситуации вполне допустимо не иметь файла robots.txt и возвращать статус 404 по запросу.
Синтаксис и форматирование robots.txt
Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.
Комментарии
Комментарии – это строки, полностью игнорируемые поисковыми системами и начинающиеся с # . Они существуют для того, чтобы вы могли писать заметки о том, что делает каждая строка вашего файла robots.txt, почему она существует и когда она была добавлена. В общем, рекомендуется документировать назначение каждой строки вашего файла robots. txt, чтобы его можно было удалить, когда он больше не нужен, и не изменять, пока он все еще необходим.
Указание агента пользователя
Блок правил может быть применен к определенным пользовательским агентам с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно добиться, указав токен пользовательского агента, к которому применяется набор правил.
У каждого сканера есть собственный токен пользовательского агента, который используется для выбора соответствующих блоков.
Сканеры будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем вернутся к более общим правилам, если точное совпадение не будет найдено. Например, Googlebot News будет искать совпадение « googlebot-news ’, затем ‘ googlebot ’, затем ‘*’.
Вот некоторые из наиболее распространенных токенов агента пользователя, с которыми вы столкнетесь:
- * — Правила применяются ко всем ботам, если нет более конкретного набора правил
- Googlebot — Все поисковые роботы Google
- Googlebot-News – Поисковый робот для новостей Google
- Googlebot-Image – Поисковый робот для картинок Google
- Mediapartners-Google – поисковый робот Google AdSense
- Bingbot — поисковый робот Bing
- Яндекс — краулер Яндекса
- Baiduspider — гусеничный робот Baidu
- Facebot — поисковый робот Facebook
- Twitterbot – поисковый робот Twitter
Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, ознакомьтесь с документацией, опубликованной Google , Bing , Yandex , Baidu , Facebook и Twitter .
При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».
URL-адреса сопоставления шаблонов
Возможно, у вас есть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, так как это намного эффективнее, чем включение полного списка полных URL-адресов, которые необходимо исключить в файле robots.txt.
Чтобы уточнить URL-адреса, вы можете использовать символы * и $. Вот как они работают:
- * — это подстановочный знак, представляющий любое количество любых символов. Он может быть в начале или в середине URL-адреса, но не обязателен в конце. Вы можете использовать несколько подстановочных знаков в строке URL, например, « Disallow: */products?*sort= ». Правила с полными путями не должны начинаться с подстановочного знака.
- $ — этот символ означает конец строки URL-адреса, поэтому « Disallow: */dress$ » будет соответствовать только URL-адресам, оканчивающимся на « / dress », а не на « / dress?parameter ».
Стоит отметить, что правила robots.txt чувствительны к регистру, а это означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *?search= »), роботы все равно могут сканировать URL-адреса с другим регистром. , например « ?Search=все ».
Правила директивы соответствуют только путям URL и не могут включать протокол или имя хоста. Косая черта в начале директивы соответствует началу пути URL. Например. Disallow: /starts » будет соответствовать www.example.com/starts .
Если вы не добавите директиву start a, совпадающую с / или *, она не будет соответствовать чему-либо. Например. « Disallow: запускает » никогда не будет соответствовать чему-либо.
Чтобы наглядно представить, как работают различные правила URL, мы собрали для вас несколько примеров:
Robots.txt Ссылка на карту сайта
Директива карты сайта в файле robots. txt сообщает поисковым системам, где найти XML-карту сайта, которая помогает им обнаруживать все URL-адреса на веб-сайте. Чтобы узнать больше о картах сайта, ознакомьтесь с нашими руководство по аудиту карты сайта и расширенной настройке .
При включении карт сайта в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL-адресов (например, /sitemap.xml ). стоит отметить, что карты сайта не обязательно должны находиться в одном корневом домене, они также могут размещаться на внешнем домене.
Поисковые системы обнаружат и могут сканировать карты сайта, указанные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.
Robots.txt Блоки
Правило «запретить» в файле robots.txt можно использовать несколькими способами для разных пользовательских агентов. В этом разделе мы рассмотрим несколько различных способов форматирования комбинаций блоков.
Важно помнить, что директивы в файле robots.txt — это только инструкции. Вредоносные сканеры будут игнорировать ваш файл robots.txt и сканировать любую общедоступную часть вашего сайта, поэтому не следует использовать запрет вместо надежных мер безопасности.
Несколько блоков User-agent
Вы можете сопоставить блок правил с несколькими пользовательскими агентами, перечислив их перед набором правил, например, следующие правила запрета будут применяться как к Googlebot, так и к Bing в следующем блоке правил:
Агент пользователя: googlebot
Агент пользователя: bing
Запретить: /a
Расстояние между блоками директив
Google будет игнорировать пробелы между директивами и блоками. В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:
[код]
User-agent: *
Disallow: /disallowed/Запретить: /test1/robots_excluded_blank_line
[/code]
Во втором примере Googlebot-mobile унаследует те же правила, что и Bingbot:
[код]
Агент пользователя: googlebot-mobileАгент пользователя: bing
Запретить: /test1/deepcrawl_excluded
[/code]
Отдельные блоки в сборе
Объединены несколько блоков с одним и тем же агентом пользователя. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « /б » и «/а ».
Агент пользователя: googlebot
Запретить: /bАгент пользователя: bing
Запретить: /aАгент пользователя: googlebot
Запретить: /a
Robots.txt Разрешить
Правило «разрешить» robots.txt явно разрешает сканирование определенных URL-адресов. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи правила запрета. Например, если « /locations » запрещен, вы можете разрешить сканирование « /locations/london », имея специальное правило « Разрешить: /locations/london ».
Robots.txt Приоритизация
Если к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется самое длинное совпадающее правило. Давайте посмотрим, что произойдет для URL « /home/search/shirts » со следующими правилами:
Запретить: /home
Разрешить: *search/*
Запретить: *shirts
В этом случае URL-адрес разрешен для обхода, так как правило Разрешить имеет 9символов, в то время как правило запрета имеет только 7. Если вам нужно разрешить или запретить конкретный URL-адрес, вы можете использовать *, чтобы сделать строку длиннее. Например:
Запретить: *******************/рубашки
Если URL-адрес соответствует как разрешающему, так и запрещающему правилу, но правила имеют одинаковую длину, будет применяться запрет. Например, URL « /search/shirts » будет запрещен в следующем сценарии:
.Запретить: /поиск
Разрешить: *рубашки
Директивы robots.txt
Директивы на уровне страниц (которые мы рассмотрим позже в этом руководстве) — отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны просканировать страницу, прежде чем смогут прочитать эти инструкции, что может расходовать краулинговый бюджет.
ДирективыRobots.txt могут помочь уменьшить нагрузку на краулинговый бюджет, поскольку вы можете добавлять директивы непосредственно в файл robots. txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем предпринимать какие-либо действия. Это решение намного быстрее и проще в управлении.
Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том смысле, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.
Robots.txt NoIndex
Robots.txt noindex — это полезный инструмент для управления индексацией в поисковых системах без использования краулингового бюджета. Запрет страницы в robots.txt не означает ее удаление из индекса, поэтому директиву noindex гораздо эффективнее использовать для этой цели.
Google официально не поддерживает robots.txt noindex, и вам не следует на него полагаться, потому что, хотя сегодня он работает, завтра он может не работать. Этот инструмент может быть полезен, и его следует использовать в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексом, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые доказывают, что эта функция работает эффективно.
Вот пример использования файла robots.txt noindex:
[код]
User-agent: *
NoIndex: /directory
NoIndex: /*?*sort=
[/code]
Помимо noindex, Google в настоящее время неофициально соблюдает несколько других директив индексации, когда они помещаются в файл robots.txt. Важно отметить, что не все поисковые системы и краулеры поддерживают эти директивы, а те, которые поддерживают, могут перестать их поддерживать в любое время — не стоит полагаться на их постоянную работу.
Распространенные проблемы с файлом robots.txt
Существует ряд ключевых проблем и соображений относительно файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, сможете избежать.
- Иметь резервный блок правил для всех ботов — Использование блоков правил для конкретных строк пользовательского агента без резервного блока правил для всех остальных ботов означает, что ваш веб-сайт в конечном итоге столкнется с ботом, у которого нет наборов правил для следить.
- I Важно, чтобы файл robots.txt обновлялся . Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальном этапе разработки веб-сайта, но не обновляется по мере роста веб-сайта, что означает, что потенциально полезные страницы запрещены.
- Помните о перенаправлении поисковых систем через запрещенные URL-адреса.
- Чувствительность к регистру может вызвать много проблем — Веб-мастера могут ожидать, что часть веб-сайта не будет просканирована, но эти страницы могут быть просканированы из-за альтернативных регистров, т. е. «Disallow: /admin» существует, но поисковые системы сканируют « /ADMIN ».
- Не запрещать URL-адреса с обратными ссылками — Это предотвращает попадание PageRank на ваш сайт от других, которые ссылаются на вас.
- Задержка сканирования может вызвать проблемы с поиском — Директива « Crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем оптимально. Этой директиве не следуют ни Google, ни Baidu, но поддерживают Bing и Яндекс.
- Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт недоступен. — Возврат кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что позже они снова попытаются просканировать веб-сайт.
- Запрет Robots.txt переопределяет инструмент удаления параметров . Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
- Разметка поля поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска — страницы внутреннего поиска на сайте не должны быть доступными для сканирования, чтобы разметка поля поиска дополнительных ссылок работала.
- Отказ от переноса домена повлияет на успех переноса. — Если вы запретите перенос домена, поисковые системы не смогут отслеживать какие-либо перенаправления со старого сайта на новый, поэтому миграция вряд ли будет быть успешным.
Тестирование и аудит Robots.txt
Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы обрабатываются неправильно, существует несколько различных способов проверить его правильность настройки. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные robots.txt , а также на эти примеры:
- Используйте DeepCrawl — отчеты Запрещенные страницы и Запрещенные URL-адреса (не просканированные) могут показать вам, какие страницы заблокированы для поисковых систем вашим файлом robots. txt.
- Используйте Google Search Console . С помощью инструмента тестирования GSC robots.txt вы можете увидеть последнюю кэшированную версию страницы, а также использовать инструмент Fetch and Render для просмотра рендеринга из пользовательского агента Googlebot, а также пользовательский агент браузера. На что обратить внимание: GSC работает только с пользовательскими агентами Google, и можно протестировать только отдельные URL-адреса.
- Попробуйте объединить информацию, полученную с помощью обоих инструментов, путем выборочной проверки запрещенных URL-адресов, которые DeepCrawl пометил в инструменте тестирования GSC robots.txt, чтобы прояснить конкретные правила, которые приводят к запрету.
Мониторинг изменений robots.txt
Когда над сайтом работает много людей, и с проблемами, которые могут возникнуть, если хотя бы один символ находится не на своем месте в файле robots.txt, постоянное отслеживание файла robots. txt имеет решающее значение. Вот несколько способов проверить наличие проблем:
- Проверьте Google Search Console, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, так что это единственный способ увидеть именно то, что видит Google.
- Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает установленного Google ограничения размера в 500 КБ.
- Перейдите к отчету о статусе индекса Google Search Console в расширенном режиме, чтобы сверить изменения robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
- Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы постоянно видеть количество запрещенных страниц на вашем сайте и отслеживать изменения.
Далее: Директивы для роботов на уровне URL
Автор
Рэйчел Костелло
Рэйчел Костелло — бывший технический SEO-менеджер и контент-менеджер в Deepcrawl. Вы чаще всего найдете, что она пишет и говорит обо всем, что связано с SEO.
Индексация txt робота отключена. Как запретить индексацию нужных страниц. Запретить индексацию всех страниц со строкой запроса
Ну, например, вы решили изменить дизайн блога и не хотите, чтобы поисковые боты в это время посещали ресурс. Или вы только что создали сайт и установили на него движок, поэтому если на ресурсе нет полезной информации, то не стоит показывать ее поисковым ботам. В этой статье вы узнаете, как закрыть сайт от индексации в Яндексе, Гугле или сразу во всех поисковиках. Но перед этим вы также можете прочитать другую подобную статью: «?» А теперь приступим.
1. Закрываем сайт от индексации с помощью файла robots.txt.
Для начала вам понадобится . Для этого создайте на своем компьютере обычный текстовый документ с именем robots и расширением .txt. Вот я его только что создал:
Теперь этот файл нужно загрузить в . Если ресурс сделан на движке WordPress, то корневая папка находится там, где находятся папки wp-content, wp-includes и т. д.
Итак, мы залили на хостинг пустой файл, теперь нам нужно использовать этот файл, чтобы как-то закрыть блог от индексации. Это можно сделать, как я уже писал только для яндекса, гугла или всех поисковиков сразу. Обо всем по порядку.
Как закрыть сайт от индексации только для Яндекса?
В файле robots.txt пропишите следующую строку:
Агент пользователя: Яндекс
disallow: /
Для того, чтобы убедиться, что вы запретили Яндексу индексировать ваш ресурс, сначала добавьте сайт, если у вас есть еще не сделали этого, а затем перейдите на эту страницу. Далее введите несколько страниц вашего сайта и нажмите на кнопку «Проверить». Если страницы запрещены к индексации, то вы увидите примерно следующее:
Как запретить индексацию сайта только для Google?
Откройте файл robots.txt и пропишите там следующую строку:
Агент пользователя: Googlebot
disallow: /
Для того, чтобы проверить, что Google не индексирует сайт, создайте , добавьте свой ресурс в Google Webmaster и иди к нему. Здесь также нужно ввести несколько страниц и нажать на кнопку «проверить».
Я заметил, что поисковик Google индексирует даже те документы, которые запрещены в файле robots.txt и ставит их в дополнительный индекс, так называемые «сопли». Почему, не знаю, но вы должны понимать, что нельзя на 100% забанить сайт или отдельную страницу с помощью файла robots.txt. Этот файл, я так понимаю, только рекомендация для Гугла, а он уже решает, что индексировать, а что нет.
Как заблокировать сайт от индексации всеми поисковыми системами?
Чтобы ваш ресурс не индексировали сразу все поисковые системы, пропишите в robots.txt строку:
User-agent: *
disallow: /
Теперь вы также можете зайти на Яндекс или Гугл Вебмастер и проверить запрет на индексацию.
Посмотреть ваш файл robots.txt можно по этому адресу:
Вашдомен.ru/robots.txt
Все, что вы написали в этом файле, должно отображаться в браузере. Если при переходе по этому адресу он всплывает перед вами, значит, вы загрузили свой файл не туда.
Кстати, мой robots.txt находится в формате . Если ваш ресурс сделан на движке wordpress, то его можно просто скопировать. Он правильно настроен, чтобы поисковые боты индексировали только нужные документы и чтобы на сайте не было дубликатов.
2. Закрываем сайт от индексации с помощью панели инструментов.
Этот способ подходит только тем, чей ресурс сделан на WordPress. Заходим в «Панель управления» — «Настройки» — «Чтение». Здесь нужно поставить галочку напротив надписи «Рекомендовать поисковым системам не индексировать сайт».
Обратите внимание, внизу есть очень интересная надпись: «Поисковые системы сами решают, выполнять ли ваш запрос». Это именно то, что я написал выше. Яндекс, скорее всего, не будет индексировать запрещенные к индексации страницы, а вот с Google могут возникнуть проблемы.
3. Закрываем сайт от индексации вручную.
При закрытии всего ресурса или страницы от индексации в исходном коде автоматически появляется следующая строка:
meta name=»robots» content=»noindex,follow»
Она сообщает поисковым роботам, что документ не может быть проиндексирован. Вы можете просто вручную написать эту строчку в любом месте вашего сайта, главное чтобы она отображалась на всех страницах и тогда ресурс будет закрыт от индексации.
Кстати, если вы создаете ненужный документ на своем сайте, и не хотите, чтобы его индексировали поисковые боты, вы также можете вставить эту строчку в исходный код.
После обновления откройте исходный код страницы (CTRL+U) и посмотрите, появилась ли там эта строка. Если есть, то все в порядке. На всякий случай еще можно проверить с помощью инструментов для веб-мастеров от Яндекса и Google.
На сегодня все. Теперь вы знаете, как заблокировать сайт от индексации. Я надеюсь, что эта статья была вам полезна. Все пока.
Одним из этапов оптимизации сайта для поисковых систем является создание файла robots.txt. С помощью этого файла вы можете запретить некоторым или всем поисковым роботам индексировать ваш сайт или определенные его части, не предназначенные для индексации. В частности, вы можете отключить индексирование дублированного контента, например печатных версий страниц.
Перед индексацией поисковые роботы всегда обращаются к файлу robots.txt в корневом каталоге вашего сайта, например, http://site.ru/robots.txt, чтобы знать, в каких разделах сайта находится робот не разрешено индексировать. Но даже если вы не собираетесь ничего запрещать, то этот файл все же рекомендуется создать.
Как видно по расширению robots.txt, это текстовый файл. Для создания или редактирования этого файла лучше использовать самые простые текстовые редакторы вроде Notepad (Блокнот). robots.txt должен быть размещен в корневом каталоге сайта и имеет собственный формат, который мы рассмотрим ниже.
Формат файла robots.txt
Файл robots.txt должен содержать не менее двух обязательных записей. Сначала идет директива User-agent, которая указывает, какой сканер должен следовать приведенным ниже инструкциям. Значением может быть имя робота (гуглбот, яндекс, стекрамблер) или символ *, если вы обращаетесь ко всем роботам сразу. Например:
Агент пользователя: googlebot
Имя робота можно найти на сайте соответствующей поисковой системы. Далее должна быть одна или несколько директив Disallow. Эти директивы сообщают роботу, какие файлы и папки нельзя индексировать. Например, следующие строки запрещают роботам индексировать файл Feedback.php и каталог cgi-bin:
Запретить: /feedback.php Запретить: /cgi-bin/
Вы также можете использовать только начальные символы файлов или папок. Строка Disallow: /forum запрещает индексацию всех файлов и папок в корне сайта, имя которых начинается на forum, например, файл http://site.ru/forum.php и файл http://site. ru/forum/ папка со всем ее содержимым. Если Disallow пуст, это означает, что робот может индексировать все страницы. Если значением Disallow является символ /, это означает, что весь сайт не может быть проиндексирован.
Должно быть хотя бы одно поле Disallow для каждого поля User-agent. То есть, если вы не собираетесь ничего запрещать для индексации, то в файле robots.txt должны быть следующие записи:
User-agent: * Disallow:
Дополнительные директивы
Кроме регулярных выражений, Яндекс и Гугл разрешить использование директивы Allow, которая противоположна Disallow, то есть указывает, какие страницы можно индексировать. В следующем примере Яндексу запрещено индексировать все, кроме адресов страниц, начинающихся с /articles:
Агент пользователя: Яндекс Разрешить: /articles Запретить: /
В данном примере директива Allow должна быть написана перед Disallow, иначе Яндекс воспримет это как полный запрет на индексацию сайта. Пустая директива Allow также полностью отключает индексацию сайта:
User-agent: Yandex Allow:
равносильно
User-agent: Яндекс Запретить: /
Нестандартные директивы нужно указывать только для тех поисковых систем, которые их поддерживают. В противном случае робот, который не понимает эту запись, может некорректно обработать ее или весь файл robots.txt. Подробнее о дополнительных директивах и вообще о понимании команд файла robots.txt отдельным роботом вы можете узнать на сайте соответствующей поисковой системы.
Регулярные выражения в robots.
txtБольшинство поисковых систем учитывают только явно заданные имена файлов и папок, но есть и более продвинутые поисковые системы. Googlebot и Yandexbot поддерживают использование простых регулярных выражений в robots.txt, что значительно сокращает объем работы веб-мастеров. Например, следующие команды запрещают роботу Googlebot индексировать все файлы с расширением .pdf:
. Пользовательский агент: googlebot Запретить: *.pdf$
В приведенном выше примере символ * — это любая последовательность символов, а $ указывает на конец ссылки.
Агент пользователя: Яндекс Разрешить: /articles/*.html$ Запретить: /
Приведенные выше директивы позволяют Яндексу индексировать только файлы в папке /articles/ с расширением «.html». Все остальное запрещено для индексации.
карта сайта
Вы можете указать расположение XML карты сайта в файле robots.txt:
Агент пользователя: googlebot Disallow: Карта сайта: http://site. ru/sitemap.xml
Если у вас очень большое количество страниц на сайте и вам пришлось разбить карту сайта на части, то вам необходимо указать все части карты в файле robots.txt:
User-agent: Яндекс Disallow: Карта сайта: http://mysite.ru/my_sitemaps1.xml Карта сайта: http://mysite.ru/my_sitemaps2.xml
Зеркала сайта
Как известно, обычно один и тот же сайт можно зайти по двум адресам: как с www, так и без него. Для поискового робота site.ru и www.site.ru — это разные сайты, но с одинаковым содержанием. Их называют зеркалами.
В связи с тем, что страницы сайта имеют ссылки как с www, так и без, вес страниц можно разделить между www.site.ru и site.ru. Чтобы этого не произошло, поисковику нужно указать главное зеркало сайта. В результате «склейки» весь вес будет принадлежать одному основному зеркалу и сайт сможет занять более высокие позиции в поисковой выдаче.
Вы можете указать главное зеркало для Яндекса прямо в файле robots. txt с помощью директивы Host:
User-agent: Яндекс Disallow: /feedback.php Disallow: /cgi-bin/ Хост: www.site.ru
После склейки зеркалу www.site.ru будет принадлежать весь вес и оно будет занимать более высокие позиции в результатах поиска. А site.ru вообще не будет индексироваться поисковой системой.
Для других поисковых систем выбор основного зеркала — это постоянный редирект на стороне сервера (код 301) с дополнительных зеркал на основное. Это делается с помощью файла .htaccess и модуля mod_rewrite. Для этого кладем файл .htaccess в корень сайта и пишем там следующее: 9(.*)$ http://www.site.ru/$1
В результате все запросы с site.ru будут уходить на www.site.ru, т.е. site.ru/page1.php будут перенаправляться на www.site.ru/page1.php.
Метод перенаправления будет работать для всех поисковых систем и браузеров, но для Яндекса все же рекомендуется добавить директиву Host в файл robots.txt.
Комментарии в robots.
txtВы также можете добавлять комментарии в файл robots.txt — они начинаются с символа # и заканчиваются переводом строки. Комментарии желательно писать отдельной строкой, но лучше их вообще не использовать.
Пример использования комментариев:
User-agent: StackRambler Disallow: /garbage/ # ничего полезного в этой папке Disallow: /doc.xhtml # и на этой странице # и все комментарии в этом файле тоже бесполезны
Образцы файлов robots.txt
1. Разрешаем всем роботам индексировать все документы сайта:
User-agent: * Disallow:
User-agent: * Disallow: /
3. Запрещаем роботу поисковой системы Google для индексации файла Feedback.php и содержимого каталога cgi-bin:
Агент пользователя: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php
4. Разрешаем всем роботам индексировать весь сайт, а роботу поисковой системы Яндекс запрещаем индексировать файл Feedback. php и содержимое директории cgi-bin:
User-agent: Яндекс Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow:
5. Разрешаем всем роботам индексировать весь сайт, а роботу Яндекса разрешаем индексировать только предназначенную для него часть сайта:
User-agent: Яндекс Разрешить: /yandex Disallow: / Хост: www.site.ru User-agent: * Disallow:
Пустые строки разделяют пределы для разных роботов. Каждый блок ограничений должен начинаться со строки с полем User-Agent, указывающим на робота, к которому применяются данные правила индексации сайта.
Распространенные ошибки
Необходимо учитывать, что пустая строка в файле robots.txt является разделителем между двумя записями для разных роботов. Кроме того, вы не можете указать несколько директив в одной строке. При отключении индексации файла веб-мастера часто опускают / перед именем файла.
Не нужно прописывать в robots. txt запрет на индексацию сайта для различных программ, которые предназначены для полной загрузки сайта, например ТелепортПро. Ни загрузчики, ни браузеры никогда не смотрят этот файл и не следуют написанным там инструкциям. Он предназначен исключительно для поисковых систем. Также не стоит блокировать админку своего сайта в robots.txt, так как если на нее нигде нет ссылки, то она не будет проиндексирована. Вы будете раскрывать расположение админки только тем людям, которые не должны об этом знать. Также стоит помнить, что слишком большой файл robots.txt может быть проигнорирован поисковиком. Если у вас слишком много страниц, не предназначенных для индексации, то лучше просто удалить их с сайта или переместить в отдельный каталог и запретить индексацию этого каталога.
Проверка файла robots.txt на наличие ошибок
Обязательно проверьте, как поисковые системы понимают ваш файл robots. Вы можете использовать инструменты Google для веб-мастеров, чтобы проверить Google. Если вы хотите узнать, как Яндекс понимает ваш файл robots. txt, вы можете воспользоваться сервисом Яндекс.Вебмастер. Это позволит вовремя исправить допущенные ошибки. Также на страницах этих сервисов можно найти рекомендации по составлению файла robots.txt и много другой полезной информации.
Копирование статьи запрещено.
Robots.txt — это специальный файл, расположенный в корневом каталоге сайта. Вебмастер указывает в нем, какие страницы и данные закрыть от индексации поисковыми системами. Файл содержит директивы, описывающие доступ к разделам сайта (так называемый стандарт исключений роботов). Например, с его помощью можно задавать различные параметры доступа для поисковых роботов, предназначенных для мобильных устройств и обычных компьютеров. Очень важно правильно его настроить.
Требуется ли файл robots.txt?
С помощью robots.txt вы можете:
- запретить индексацию похожих и ненужных страниц, чтобы не тратить впустую лимит сканирования (количество URL-адресов, которые поисковый робот может обойти за одно сканирование). Те. робот сможет индексировать более важные страницы.
- скрыть изображения из результатов поиска.
- закрыть неважные скрипты, файлы стилей и другие некритические ресурсы страницы от индексации.
Если это не позволяет поисковым роботам Google или Yandex анализировать страницы, не блокируйте файлы.
Где находится файл Robots.txt?
Если вы просто хотите посмотреть, что находится в файле robots.txt, то просто введите в адресной строке браузера: site.ru/robots.txt.
Физически файл robots.txt находится в корневой папке сайта на хостинге. У меня хостинг beget.ru, поэтому покажу расположение файла robots.txt на этом хостинге.
Как создать правильный файл robots.txt
Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует или разрешает индексацию пути на сайте.
- В текстовом редакторе создайте файл robots.txt и заполните его в соответствии с приведенными ниже правилами.
- Файл robots.txt должен быть текстовым файлом в кодировке ASCII или UTF-8. Использование символов в других кодировках запрещено.
- На сайте должен быть только один такой файл.
- Файл robots.txt должен быть помещен в корневой каталог сайта. Например, чтобы управлять индексацией всех страниц на http://www.example.com/, поместите файл robots.txt по адресу http://www.example.com/robots.txt. Он не должен находиться в подкаталоге (например, по адресу http://example.com/pages/robots.txt). Если у вас возникли проблемы с доступом к корневому каталогу, обратитесь к своему хостинг-провайдеру. Если у вас нет доступа к корневому каталогу сайта, используйте альтернативный метод блокировки, например метатеги.
- Файл robots.txt можно добавить на адреса с субдоменами (например, http:// веб-сайт .example.com/robots.txt) или нестандартными портами (например, http://example.com : 8181 /robots.txt).
- Проверить файл в Яндекс. Вебмастере и Google Search Console.
- Загрузите файл в корневой каталог вашего сайта.
Вот пример файла robots.txt с двумя правилами. Ниже приводится его объяснение.
Агент пользователя: Googlebot Запретить: /nogooglebot/ Агент пользователя: * Разрешить: / Карта сайта: http://www.example.com/sitemap.xml
Пояснение
- Пользовательский агент с именем Googlebot не должен проиндексируйте каталог http://example.com/nogooglebot/ и его подкаталоги.
- Все остальные пользовательские агенты имеют доступ ко всему сайту (можно опустить, результат тот же, так как по умолчанию предоставляется полный доступ).
- Карта сайта для этого сайта находится по адресу http://www.example.com/sitemap.xml.
Директивы Disallow и Allow
Для запрета индексации и доступа робота к сайту или отдельным его разделам используйте директиву Disallow.
User-agent: Yandex Disallow: / # блокирует доступ ко всему сайту User-agent: Yandex Disallow: /cgi-bin # блокирует доступ к страницам, # начинающимся с «/cgi-bin»
Стандарт рекомендует вставлять пустую новую строку перед каждой директивой User-agent.
Символ # используется для описания комментариев. Все после этого символа и до первой новой строки игнорируется.
Чтобы разрешить роботу доступ к сайту или некоторым его разделам, используйте директиву Allow
User-agent: Яндекс Разрешить: /cgi-bin Disallow: / # запрещает загрузку всего, кроме страниц, # начинающихся с «/cgi-bin »
Пустые символы новой строки между директивами User-agent, Disallow и Allow не допускаются.
Директивы Allow и Disallow из соответствующего блока User-agent сортируются по длине префикса URL-адреса (от самого низкого к самому длинному) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю по порядку появления в отсортированном списке. Таким образом, порядок директив в файле robots.txt не влияет на то, как робот их использует. Примеры:
# Оригинальный robots.txt: User-agent: Яндекс Разрешить: /catalog Disallow: / # Отсортированный robots. txt: User-agent: Яндекс Disallow: / Разрешить: /catalog # разрешить загрузку только страниц, # начинающихся с «/ catalog» # Оригинальный robots.txt: User-agent: Яндекс Разрешить: / Разрешить: /catalog/auto Запретить: /catalog # Отсортированный robots.txt: User-agent: Яндекс Разрешить: / Запретить: /catalog Разрешить: /catalog/auto # запрещает загрузку страниц, начинающихся с «/catalog», # но разрешает загрузку страниц, начинающихся с «/catalog/auto».
В случае конфликта между двумя директивами с префиксами одинаковой длины приоритет имеет директива Allow.
Использование специальных символов * и $
При указании путей директив Allow и Disallow можно использовать специальные символы * и $, тем самым задавая определенные регулярные выражения.
Специальный символ * означает любую (включая пустую) последовательность символов.
Специальный символ $ означает конец строки, символ перед ним — последний.
Агент пользователя: Яндекс Disallow: /cgi-bin/*. aspx # запрещает «/cgi-bin/example.aspx» # и «/cgi-bin/private/test.aspx» Disallow: /*private # запрещает не только «/private», # но и «/cgi-bin/private»
Директива карты сайта
Если вы используете описание структуры сайта с помощью карты сайта, укажите путь к файлу в качестве параметра директивы карты сайта ( если файлов несколько, укажите все). Пример:
Агент пользователя: Яндекс Разрешить: /sitemap: https://example.com/site_structure/my_sitemaps1.xml карта сайта: https://example.com/site_structure/my_sitemaps2.xml
Директива является сквозной, поэтому она будет использоваться роботом вне зависимости от того места в файле robots.txt, где она указана.
Робот запомнит путь к файлу, обработает данные и использует результаты при последующем формировании сеансов загрузки.
Директива Crawl-delay
Если сервер сильно загружен и не успевает обрабатывать запросы роботов, используйте директиву Crawl-delay. Позволяет задать минимальный промежуток времени (в секундах) для поискового робота между окончанием загрузки одной страницы и началом загрузки следующей.
Прежде чем менять скорость сканирования сайта, узнайте, на какие страницы робот заходит чаще.
- Анализ журналов сервера. Свяжитесь с лицом, ответственным за сайт, или с вашим хостинг-провайдером.
- Посмотреть список адресов на странице Индексирование → Статистика обхода в Яндекс.Вебмастере (установить переключатель Все страницы).
Если вы обнаружите, что робот обращается к служебным страницам, отключите их индексацию в файле robots.txt с помощью директивы Disallow. Это поможет сократить количество ненужных вызовов робота.
Clean-param Директива
Директива работает только с роботом Яндекс.
Если адреса страниц сайта содержат динамические параметры, не влияющие на их содержание (идентификаторы сеансов, идентификаторы пользователей, идентификаторы рефереров и т. д.), вы можете описать их с помощью директивы Clean-param.
Робот Яндекса, используя эту директиву, не будет повторно загружать повторяющуюся информацию. Таким образом, эффективность сканирования вашего сайта повысится, а нагрузка на сервер снизится.
Например, на сайте есть страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example. com/some_dir/get_book.pl?ref=site_3&book_id= 123
Параметр ref используется только для отслеживания с какого ресурса был сделан запрос и не меняет содержание, та же страница с книгой book_id=123 будет показана по адресу все три адреса. Затем, если вы укажете директиву следующим образом:
User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
робот Яндекса сократит все адреса страниц до одного:
www.example.com/some_dir/get_book.pl?book_id=123
Если такая страница есть на сайте, она будет участвовать в результатах поиска.
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn]
В первом поле через символ & перечислены параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути к страницам, для которых вы хотите применить правило.
Примечание. Директива Clean-Param является сквозной, поэтому ее можно указать в любом месте файла robots.txt. Если указаний несколько, все они будут учтены роботом.
Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. В этом случае символ * обрабатывается так же, как и в файле robots.txt: символ * всегда неявно добавляется в конец префикса. Например:
Чистый параметр: s /forum/showthread.php
Регистрация соблюдается. Длина правила ограничена 500 символами. Например:
Параметр очистки: abc /forum/showthread.php Параметр очистки: sid&sort /forum/*.php Параметр очистки: someTrash&otherTrash
Директива HOST
На данный момент Яндекс прекратил поддержку этой директивы.
Правильный robots.txt: настройка
Содержимое файла robots. txt различается в зависимости от типа сайта (интернет-магазин, блог), используемой CMS, особенностей структуры и ряда других факторов. Поэтому созданием этого файла для коммерческого сайта, особенно если речь идет о сложном проекте, должен заниматься SEO-специалист с достаточным опытом.
Неподготовленный человек, скорее всего, не сможет принять правильное решение, какую часть контента лучше заблокировать от индексации, а какую разрешить показывать в результатах поиска.
Правильный пример Robots.txt для WordPress
User-agent: * # общие правила для роботов, кроме Яндекса и Гугла, # потому что правила для них ниже Disallow: /cgi-bin # папка хостинга Disallow: /? # все параметры запроса на главной странице Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть поддиректория /wp/, где CMS установлена (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # авторский архив Disallow: /users/ # авторский архив Disallow: */ trackback # трекбэки, оповещения в комментариях при появлении открытой # ссылки на статью Disallow: */feed # все ленты Disallow: */rss # rss лента Disallow: */embed # все вставки Disallow: */wlwmanifest. xml # файл манифеста xml Windows Live Writer (если не используется, # можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с тегами utm Disallow: *openstat= # ссылки с тегами openstat Разрешить : */uploads # открыть папку с файлами закачки Карта сайта: http://site.ru/sitemap.xml # адрес карты сайта User-agent: GoogleBot # правила для Google (не дублировать комментарии) Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем скрипты js внутри /wp — (/*/ — для приоритета) Разрешить: /*/*.css # открывать файлы css внутри /wp- (/*/ — для приоритета) Разрешить: /wp-*.png # изображения в плагинах, папке кеша и т.д. Разрешить: /wp-*.jpg # изображения в плагинах, папке кеша и т. д. Разрешить: /wp-*.jpeg # изображения в плагинах, папке кеша и т. д. Разрешить: /wp-*.gif # картинки в плагинах, кеше папка и т.д. Разрешить: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (не дублировать комментарии) Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Запретить: */embed Запретить: */wlwmanifest.xml Запретить: /xmlrpc.php Разрешить: */uploads Разрешить: /*/*.js Разрешить: /*/*.css Разрешить: /wp-*.png Разрешить: /wp-*.jpg Разрешить: /wp-*.jpeg Разрешить: /wp-*.gif Разрешить: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # из индексации, а удалять параметры тега, # Google не поддерживает такие правила Clean-Param: openstat # аналогичный
Пример Robots.txt для Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries /
Запретить: /media/
Запретить: /modules/
Запретить: /plugins/
Запретить: /templates/
Запретить: /tmp/
Запретить: /xmlrpc/
Пример robots.
txt для Битрикс агент: *
Запретить: /*index.php$
Запретить: /bitrix/
Запретить: /auth/
Запретить: /personal/
Запретить: /upload/
Запретить: /search/
Запретить: /*/search/
Запретить: /*/slide_show/
Запретить: / */gallery/*order=*
Запретить: /*?print=
Запретить: /*&print=
Запретить: /*register=
Запретить: /*forgot_password=
Запретить: /*change_password=
Запретить: /*login =
Запретить: /*logout=
Запретить: /*auth=
Запретить: /*?action=
Запретить: /*action=ADD_TO_COMPARE_LIST
Запретить: /*action=DELETE_FROM_COMPARE_LIST
Запретить: /*action=ADD2BASKET
Запретить: /*action=BUY
Запретить: /*bitrix_*=
Запретить: /*backurl=*
Запретить: /*BACKURL=*
Запретить : /*back_url=*
Запретить: /*BACK_URL=*
Запретить: /*back_url_admin=*
Запретить: /*print_course=Y
Запретить: /*COURSE_ID=
Запретить: /*?COURSE_ID=
Запретить: /* ?PAGEN
Запретить: /*PAGEN_1=
Запретить: /*PAGEN_2=
Запретить: /*PAGEN_3=
Запретить: /*PAGEN_4=
Запретить: /*PAGEN_5=
Запретить: /*PAGEN_6=
Запретить: /*PAGEN_7=
Запретить: /*PAGE_NAME=search
Запретить: /*PAGE_NAME=user_post
Запретить: /* PAGE_NAME=detail_slide_show
Запретить: /*SHOWALL
Запретить: /*show_all=
Карта сайта: http://путь к вашей XML-карте сайта
Пример robots.
txt для MODx Агент пользователя: *
Запретить: /assets/cache /
Запретить: /assets/docs/
Запретить: /assets/export/
Запретить: /assets/import/
Запретить: /assets/modules/
Запретить: /assets/plugins/
Запретить: /assets/snippets/
Запретить: /install/
Запретить: /manager/
Карта сайта: http:/ /site.ru/sitemap.xml
Пример Robots.txt для Drupal
User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Запретить: /themes/
Запретить: /scripts/
Запретить: /updates/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: / index.php
Запретить: /admin/
Запретить: /comment/reply/
Запретить: /contact/
Запретить: /logout/
Запретить: /search/
Запретить: /user/register/
Запретить: /user/password /
Запретить: *регистрация*
Запретить: *логин*
Запретить: /top-rated-
Запретить: /messages/
Запретить: /book/export/
Запретить: /user2userpoints/
Запретить: /myuserpoints/
Запретить: /tagadelic/
Запретить: /referral/
Запретить: /aggregator/
Запретить: /files/ pin/
Запретить: /your-votes
Запретить: /comments/recent
Запретить: /*/edit/
Запретить: /*/delete/
Запретить: /*/export/html/
Запретить: /taxonomy/term/ */0$
Запретить: /*/edit$
Запретить: /*/outline$
Запретить: /*/revisions$
Запретить: /*/contact$
Запретить: /*downloadpipe
Запретить: /node$
Запретить: /node/*/track$
Запретить: /*&
Запретить: /*%
Запретить: /*?page= 0
Запретить: /*section
Запретить: /* порядок
Запретить: /*?sort*
Запретить: /*&sort*
Запретить: /*votesupdown
Запретить: /*calendar
Запретить: /*index. php
Разрешить : /*?page=
Запретить: /*?
Карта сайта: http://путь к вашей XML карте сайта
ВНИМАНИЕ!
CMS постоянно обновляются. Возможно, вам придется закрыть другие страницы от индексации. В зависимости от цели запрет на индексацию может быть снят или, наоборот, добавлен.
Проверить robots.txt
У каждой поисковой системы свои требования к оформлению файла robots.txt.
Для того, чтобы проверить robots.txt на правильность синтаксиса и структуры файла, вы можете воспользоваться одним из онлайн-сервисов. Например, Яндекс и Google предлагают собственные сервисы анализа сайтов для веб-мастеров, которые включают в себя robots.txt parsing:
Проверка robotx.txt для краулера Яндекса
Это можно сделать с помощью специального инструмента от Яндекса — Яндекс.Вебмастер, и тут тоже два варианта.
Вариант 1:
Верхний правый выпадающий список — выберите Парсинг robots. txt или перейдите по ссылке http://webmaster.yandex.ru/robots.xml
Не забывайте, что все изменения, которые вы вносите в файл robots.txt, он будет доступен не сразу, а только через некоторое время.
Проверка файла robotx.txt для поискового робота Google
- В Google Search Console выберите свой сайт, перейдите к инструменту проверки и просмотрите содержимое файла robots.txt. Синтаксическая и головоломка ошибки в ней будут подсвечены, а их количество указано под окном редактирования.
- Внизу страницы интерфейса введите нужный URL в соответствующее окно.
- В раскрывающемся меню справа выберите робот .
- Нажмите кнопку ПРОВЕРИТЬ .
- Статус будет отображаться ДОСТУПНО или НЕДОСТУПНО . В первом случае гугл-боты могут зайти на указанный вами адрес, а во втором — нет.
- При необходимости внесите изменения в меню и проверьте еще раз. Внимание! Эти исправления не будут автоматически добавлены в файл robots. txt на вашем сайте.
- Скопируйте измененное содержимое и добавьте его в файл robots.txt на своем веб-сервере.
Помимо верификационных сервисов от Яндекса и Гугла в сети есть много других. валидаторов robots.txt.
генераторы robots.txt
- Сервис от SEOlib.ru. С помощью этого инструмента можно быстро получить и проверить ограничения в файле Robots.txt.
- Генератор от pr-cy.ru. В результате работы генератора Robots.txt вы получите текст, который необходимо сохранить в файл с именем Robots.txt и загрузить в корневую директорию вашего сайта.
Поисковые роботы сканируют всю информацию в Интернете, но владельцы сайтов могут ограничить или запретить доступ к своему ресурсу. Для этого нужно закрыть сайт от индексации через служебный файл robots.txt.
Если вам не нужно закрывать сайт полностью, запретите индексацию отдельных страниц. Пользователи не должны видеть в поиске служебные разделы сайта, личные кабинеты, устаревшую информацию из раздела акций или календаря. Дополнительно нужно закрыть от индексации скрипты, всплывающие окна и баннеры, тяжелые файлы. Это поможет сократить время индексации и снизить нагрузку на сервер.
Как полностью закрыть сайт
Обычно ресурс полностью закрывается от индексации во время или . Также закрывают сайты, на которых веб-мастера учатся или проводят эксперименты.
Вы можете отключить индексацию сайта для всех поисковиков, для одного робота или запретить для всех, кроме одного.
Как закрыть отдельные страницы
Небольшие сайты-визитки обычно не требуют скрытия отдельных страниц. Для ресурсов с большим количеством служебной информации закройте страницы и целые разделы:
- административная панель;
- служебных каталогов;
- Личный кабинет; регистрационные формы
- ; бланки заказов
- ;
- сравнение товаров;
- избранное;
- корзина;
- капча;
- всплывающих окон и баннеров;
- поиск по сайту;
- идентификатор сеанса.
Желательно запретить индексацию т.н. мусорные страницы. Это старые новости, акции и спецпредложения, события и события в календаре. На информационных сайтах закрывать статьи с устаревшей информацией. В противном случае ресурс будет восприниматься как неактуальный. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.
Запрет индексации
Как закрыть прочую информацию
Файл robots.txt позволяет закрывать на сайте папки, файлы, скрипты, utm теги. Их можно скрыть полностью или выборочно. Укажите запрет на индексацию для всех роботов или отдельных.
Запрет индексации
Как закрыть сайт с помощью метатегов
Альтернативой файлу robots.txt является метатег robots. Запишите его в исходный код сайта в файле index.html. Поместить в контейнер
. Укажите, для каких поисковых роботов сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его имя. Для Google — Googlebot, для Яндекса — Яндекс. Существует два варианта написания метатега.
Вариант 1.
Вариант 2.
Атрибут «content» имеет следующие значения:
- none — запрещена индексация, в том числе noindex и nofollow;
- noindex — запрещена индексация контента;
- nofollow — индексация ссылок запрещена;
- follow — разрешена индексация ссылок;
- index — разрешена индексация;
- все — индексация контента и ссылок разрешена.
Таким образом, можно запретить индексацию контента, но разрешить ссылки. Для этого укажите content=»noindex, follow». На такой странице ссылки будут проиндексированы, а текст — нет. Используйте комбинации значений для разных случаев.
При закрытии сайта от индексации через метатеги отдельно создавать robots.txt не нужно.
Какие ошибки возникают
головоломка — когда правила противоречат друг другу. Выявляйте логические ошибки, проверяя файл robots.txt в Яндекс.Вебмастере и Google Robots Testing Tool.
Синтаксический — когда неправильно прописаны правила в файле.
Наиболее часто встречающиеся:
- ввод без учета регистра;
- написание заглавными буквами;
- список всех правил в одной строке;
- отсутствие пустой строки между правилами;
- с указанием обходчика в директиве;
- перечисление набора вместо закрытия всего раздела или папки;
- отсутствие обязательной директивы запрета.
Шпаргалка
Есть два варианта отключения индексации сайта. Создайте файл robots.txt и укажите запрет через директиву disallow для всех сканеров. Другой вариант — прописать бан через метатег robots в файле index.html внутри тега.
Закрыть служебную информацию, устаревшие данные, скрипты, сессии и utm-метки. Создайте отдельное правило для каждого запрета. Запретить всем поисковым роботам через * или указать имя конкретного краулера. Если хотите разрешить только одного робота, пропишите правило через disallow.
При создании файла robots.txt избегайте логических и синтаксических ошибок. Проверьте файл с помощью Яндекс.Вебмастера и Google Robots Testing Tool.
Материал подготовила Светлана Сирвида-Льоренте.
Эта статья посвящена практическому использованию файла robots.txt для удаления нежелательных страниц из . Какие страницы удалять, как их искать, как сделать так, чтобы полезный контент не блокировался. На самом деле в статье речь идет об использовании только одной директивы — Disallow. Подробная инструкция по использованию файла robots и других директив в Справке Яндекса.
В большинстве случаев закрываем ненужные страницы для всех поисковых роботов, то есть указываем правила Disallow для User-agent: *.
User-agent: *
Disallow: /cgi-bin
Что нужно закрыть от индексации?
С помощью директивы Disallow в файле robots.txt нужно закрыть от индексации поисковыми ботами:
Как искать страницы, которые нужно закрыть от индексации?
ComparseR
Просканировать сайт и справа во вкладке «Структура» построить дерево сайта:
Посмотреть все вложенные «ветви» дерева.
Получить во вкладках «Яндекс» и «Google» страницы в индексе поисковых систем. Потом в статистике обхода посмотреть в «Найдено в яндексе, не найдено на сайте» и «Найдено в гугле не найдено на сайте».
Яндекс.Вебмастер
В разделе «Индексирование» — «Структура сайта» просмотреть все «ветви» структуры.
Проверить, не был ли случайно заблокирован полезный контент
robots.txt
Посмотреть содержимое файла robots.txt.
Comparser (проверка роботов на закрывающий метатег)
В настройках Comparser перед сканированием снимите галочку:
Анализ результатов сканирования справа:
Search Console (проверьте полезные заблокированные ресурсы)
Важно убедиться, что робот Googlebot имеет доступ к файлам стилей и изображениям, используемым для отображения страниц. Для этого вам необходимо выборочно просканировать страницы с помощью инструмента «Просмотреть как Googlebot», нажав кнопку «Получить и обработать». Полученные два изображения «Вот как Googlebot увидел эту страницу» и «Вот как посетитель сайта увидит эту страницу» должны выглядеть практически одинаково. Пример проблемной страницы:
Вы можете увидеть заблокированные части страницы в таблице ниже:
Подробнее о результатах сканирования читайте в справке консоли. Все заблокированные ресурсы необходимо разблокировать в файле robots.txt с помощью директивы Allow (разблокировать нельзя только внешние ресурсы). В этом случае вам нужно в режиме «точка-точка» разблокировать только необходимые ресурсы. В приведенном выше примере боту Google отказано в доступе к папке /templates/, но он открыт для некоторых типов файлов внутри этой папки:
Агент пользователя: Googlebot
Разрешено: /templates/*.css
Разрешено: /templates/*.js
Разрешено: /templates/*.png
Разрешено: /templates/*.jpg
Разрешено: /templates/*.woff
Разрешить: /templates/*.ttf
Разрешить: /templates/*.svg
Запретить: /templates/
>> Подстановочные знаки Robots.
txt: как использовать подстановочные знаки в Robots.txtФайл robots.txt используется для управления тем, какой контент поисковым системам разрешен к доступу на вашем сайте. Это отлично подходит для контроля дублирующегося контента и направления краулингового бюджета на самые важные страницы. Важно понимать, что если у вас есть контент, который вы хотите удалить из индекса Google, запрет контента в вашем файле robots.txt только предотвратит повторный доступ Google к нему, он не удалит контент из индекса — сделать это вам нужно будет использовать тег noindex. Я в порядке, давайте перейдем к тому, как использовать подстановочные знаки robots.txt
Также стоит отметить, что Google делает категорическое заявление о том, что большинству людей не нужно беспокоиться о краулинговом бюджете:
Во-первых, мы хотели бы подчеркнуть, что краулинговый бюджет, как описано ниже, не является чем-то, что есть у большинства издателей. беспокоиться о. Если новые страницы, как правило, сканируются в тот же день, когда они опубликованы, веб-мастерам не нужно сосредотачиваться на краулинговом бюджете. Аналогичным образом, если на сайте менее нескольких тысяч URL-адресов, в большинстве случаев он будет сканироваться эффективно.
Хотя вышеизложенное может быть верно для большинства веб-сайтов, это, вероятно, неверно для любого веб-сайта, который достаточно велик, чтобы нанять SEO-специалиста. Обратите внимание, что в своем заявлении Google говорит, что вам не нужно беспокоиться о краулинговом бюджете… если на вашем сайте меньше нескольких тысяч URL-адресов…. Бюджет обхода — важный фактор, который следует учитывать, чтобы убедиться, что ресурсы обхода сосредоточены на важных страницах.
Использование подстановочных знаков robots.txt очень важно для эффективного контроля сканирования поисковыми системами. В то время как обычное форматирование в robots.txt предотвратит сканирование страниц в каталоге или определенном URL-адресе, использование подстановочных знаков в вашем файле robots.txt позволит вам запретить поисковым системам доступ к контенту на основе шаблонов в URL-адресах, таких как параметр или повторение символа. Прежде чем углубляться в детали использования подстановочных знаков в robots.txt, давайте рассмотрим основы robots.txt (я в порядке, давайте перейдем к тому, как использовать подстановочные знаки в robots.txt).
Основы Robots.txt
Если мы хотим разрешить всем поисковым системам доступ ко всему на сайте, это можно сделать тремя способами: с помощью Disallow: , Allow: / или просто оставив файл robots.txt пустым. Любой из них позволит поисковым системам делать на вашем сайте все, что они хотят.
Агент пользователя: * Disallow:
или
User-agent: * Разрешить: /
И наоборот, если вы хотите запретить поисковым системам доступ к любому контенту на вашем сайте, вы должны использовать команду Disallow: /. Это отлично подходит для сайтов разработки и сайтов, которые строятся, к которым вы пока не хотите разрешать поисковым системам доступ, но вы почти никогда не хотите использовать эту команду на своем работающем сайте.
Агент пользователя: * Disallow: /
Если вы хотите разрешить определенным поисковым системам различный доступ, вы можете использовать для этого команду user-agent. В приведенных выше примерах мы просто говорим «user-agent: *», что означает, что все поисковые системы должны подчиняться следующим командам. Пример ниже позволяет Google получить доступ ко всему сайту, в то время как Яндекс не имеет доступа ни к чему.
Агент пользователя: Googlebot Запретить: User-agent: Яндекс: Disallow: /
Чтобы предотвратить сканирование каталога, просто укажите каталог, а не корень, /.
Агент пользователя: * Disallow: /directory/
Как использовать подстановочные знаки в robots.txt
Хорошо, теперь, когда мы рассмотрели, почему вы можете использовать подстановочные знаки robots.txt и несколько основных примеров robots.txt, давайте углубимся в то, как использовать подстановочные знаки robots.txt. Есть несколько вещей, которые нам нужно знать об использовании подстановочного знака в robots.txt заранее. Во-первых, вам не нужно добавлять подстановочный знак к каждой строке в файле robots.txt. Подразумевается, что если вы заблокируете /directory-z/, вы хотите заблокировать все в этом каталоге и не должны включать подстановочный знак (например, /directory-z/*). Во-вторых, вам нужно знать, что на самом деле Google поддерживает два разных типа подстановочных знаков: 9.0003
* подстановочные знаки
Подстановочный знак * будет просто соответствовать любой последовательности символов. Это полезно, когда есть четкие шаблоны URL, которые вы хотите запретить, такие как фильтры и параметры.
Подстановочные знаки $
Подстановочный знак $ используется для обозначения конца URL-адреса. Это полезно для сопоставления определенных типов файлов, таких как .pdf.
Ниже приведены несколько распространенных вариантов использования подстановочных знаков robots.txt:
Запретить поисковым системам доступ к любому URL-адресу, который имеет ? в нем:
Агент пользователя: * Запретить: /*?
Запретить поисковым системам сканировать любой URL-адрес страницы результатов поиска (query?kw=)
Агент пользователя: * Запретить: /query?kw=*
Запретить поисковым системам сканировать любые URL-адреса с параметром ?color=, за исключением ?color=blue
User-agent: * Запретить: /*?цвет Разрешить: /*?color=blue
Запретить поисковым системам сканировать каналы комментариев в WordPress
Агент пользователя: * Запретить: /comments/feed/
Блокировать поисковым системам сканирование URL-адресов в общем дочернем каталоге
Агент пользователя: * Disallow: /*/child/
Запретить поисковым системам сканировать URL-адреса в определенном каталоге, которые содержат 3 или более дефиса
Агент пользователя: * Запретить: /directory/*-*-*-
Запретить поисковым системам сканировать любой URL-адрес, который заканчивается на «. pdf». Обратите внимание: если к URL-адресу добавлены параметры, этот подстановочный знак не будет препятствовать сканированию, поскольку URL-адрес не более длинный заканчивается на «.pdf»
Агент пользователя: * Disallow: /*.pdf$
Всегда проверяйте подстановочные знаки robots.txt перед отправкой Live
Всегда рекомендуется дважды проверять подстановочные знаки robots.txt, прежде чем переключать переключатель и вносить какие-либо изменения в файл robots.txt. . Поскольку простое добавление / в ваш файл robots.txt потенциально может помешать поисковым системам проиндексировать весь ваш сайт, погрешность отсутствует. Ошибки могут иметь катастрофические последствия и могут потребовать длительного времени восстановления. Лучший способ перепроверить свою работу — использовать Google Robots.txt Testing Tool.
Поисковые роботы — 10 самых популярных
Бен Итон
Опубликовано 19 августа 2022 г.
Во всемирной паутине есть как плохие, так и хорошие боты. Вы определенно хотите избежать плохих ботов, поскольку они потребляют вашу пропускную способность CDN, занимают ресурсы сервера и крадут ваш контент. С другой стороны, с хорошими ботами (также известными как поисковые роботы) следует обращаться с осторожностью, поскольку они являются жизненно важной частью индексации вашего контента поисковыми системами, такими как Google, Bing и Yahoo. В этом сообщении блога мы рассмотрим десятку самых популярных поисковых роботов.
Что такое поисковые роботы?
Веб-сканеры — это компьютерные программы, которые методично и автоматически просматривают Интернет. Их также называют роботами, муравьями или пауками.
Поисковые роботы посещают веб-сайты и читают их страницы и другую информацию, чтобы создать записи для индекса поисковой системы. Основная цель поискового робота — предоставить пользователям полный и актуальный индекс всего доступного онлайн-контента.
Кроме того, поисковые роботы также могут собирать определенные типы информации с веб-сайтов, например контактную информацию или данные о ценах. Используя поисковые роботы, компании могут поддерживать актуальность и эффективность своего присутствия в Интернете (например, SEO, оптимизация внешнего интерфейса и веб-маркетинг).
Поисковые системы, такие как Google, Bing и Yahoo, используют сканеры для правильного индексирования загруженных страниц, чтобы пользователи могли быстрее и эффективнее находить их при поиске. Без поисковых роботов не было бы ничего, что могло бы сказать им, что на вашем сайте есть новый и свежий контент. Карты сайта также могут играть роль в этом процессе. Так что поисковые роботы, по большей части, это хорошо.
Однако иногда возникают проблемы с планированием и загрузкой, поскольку поисковый робот может постоянно опрашивать ваш сайт. И здесь в игру вступает файл robots.txt. Этот файл может помочь контролировать сканирующий трафик и гарантировать, что он не перегрузит ваш сервер.
Поисковые роботы идентифицируют себя для веб-сервера с помощью заголовка запроса User-Agent
в HTTP-запросе, и каждый сканер имеет свой уникальный идентификатор. В большинстве случаев вам нужно будет просматривать журналы реферера вашего веб-сервера, чтобы просмотреть трафик поискового робота.
Robots.txt
Поместив файл robots.txt в корень вашего веб-сервера, вы можете определить правила для поисковых роботов, например разрешить или запретить сканирование определенных ресурсов. Поисковые роботы должны следовать правилам, определенным в этом файле. Вы можете применить общие правила ко всем ботам или сделать их более детализированными и указать их конкретные User-Agent
строка.
Пример 1
Этот пример предписывает всем роботам поисковых систем не индексировать содержимое веб-сайта. Это определяется путем запрета доступа к корневому каталогу /
вашего веб-сайта.
Агент пользователя: * Запретить: /
Пример 2
В этом примере достигается противоположность предыдущему. В этом случае инструкции по-прежнему применяются ко всем пользовательским агентам. Однако в инструкции Disallow ничего не определено, а это означает, что все может быть проиндексировано.
Агент пользователя: * Запретить:
Чтобы увидеть больше примеров, обязательно ознакомьтесь с нашим подробным сообщением о том, как использовать файл robots.txt.
10 лучших поисковых роботов и поисковых роботов
Существуют сотни поисковых роботов и поисковых роботов, прочесывающих Интернет, но ниже приведен список из 10 популярных поисковых роботов и поисковых роботов, которые мы собрали на основе тех, которые мы регулярно видим в логи нашего веб-сервера.
1. GoogleBot
Являясь крупнейшей в мире поисковой системой, Google использует поисковые роботы для индексации миллиардов страниц в Интернете. Googlebot — это поисковый робот, который Google использует именно для этого.
Googlebot — это два типа поисковых роботов: настольный поисковый робот, который имитирует человека, просматривающего компьютер, и мобильный поисковый робот, который выполняет те же функции, что и iPhone или телефон Android.
Строка пользовательского агента запроса может помочь вам определить подтип Googlebot. Googlebot Desktop и Googlebot Smartphone, скорее всего, будут сканировать ваш веб-сайт. С другой стороны, оба типа сканеров принимают один и тот же токен продукта (токен пользовательского агента) в файле robots.txt. Вы не можете использовать robots.txt для выборочного таргетинга Googlebot Smartphone или Desktop.
Googlebot — очень эффективный поисковый робот, который может быстро и точно индексировать страницы. Однако у него есть некоторые недостатки. Например, робот Googlebot не всегда сканирует все страницы веб-сайта (особенно если веб-сайт большой и сложный).
Кроме того, робот Googlebot не всегда сканирует страницы в режиме реального времени, а это означает, что некоторые страницы могут быть проиндексированы только через несколько дней или недель после их публикации.
Агент пользователя
Googlebot
Полный
User-Agent
stringMozilla/5. 0 (совместимый; Googlebot/2.1; +http://www.google.com/bot.html)
Пример робота Googlebot в файле robots.txt
В этом примере заданные инструкции немного более детализированы. Здесь инструкции относятся только к Googlebot. В частности, он говорит Google не индексировать определенную страницу ( /no-index/your-page.html
).
Агент пользователя: Googlebot Запретить: /no-index/your-page.html
Помимо поискового робота Google, у них на самом деле есть 9additional web crawlers:
Web crawler | User-Agent string |
---|---|
Googlebot News | Googlebot-News |
Googlebot Images | Googlebot-Image/1.0 |
Googlebot Видео | Googlebot-Video/1.0 |
Google Mobile (рекомендуемый телефон) | SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6. 2.3.3.c.1.101 (GUI) ) MMP/2.0 (совместимый; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) |
Смартфон Google | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, например Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (совместимый; Googlebot/2.1; +http://www.google.com/bot.html) |
Google Mobile Adsense | (совместимо; Mediapartners-Google/2.1; +http://www.google.com/bot.html) |
Google Adsense | Mediapartners-Google |
Google AdsBot (качество целевой страницы PPC) | AdsBot-Google (+http://www.google.com/adsbot.html) |
Поисковый робот Google (получение ресурсов для мобильных устройств) | AdsBot-Google-Mobile-Apps |
Вы можете используйте инструмент Fetch в Google Search Console, чтобы проверить, как Google сканирует или отображает URL-адрес на вашем сайте. Узнайте, может ли робот Googlebot получить доступ к странице на вашем сайте, как он отображает страницу и заблокированы ли какие-либо ресурсы страницы (например, изображения или сценарии) для робота Googlebot.
Вы также можете просмотреть статистику сканирования Googlebot за день, количество загруженных килобайт и время, затраченное на загрузку страницы.
См. документацию robots.txt для робота Google.
2. Bingbot
Bingbot — это поисковый робот, развернутый Microsoft в 2010 году для предоставления информации их поисковой системе Bing. Это замена того, что раньше было ботом MSN.
Агент пользователя
Bingbot
Full
User-Agent
stringMozilla/5.0 (совместимый; Bingbot/2.0; +http://www.bing.com/bingbot.htm)
У Bing также есть инструмент, очень похожий на Google, который называется Fetch as Bingbot в Инструментах для веб-мастеров Bing. Fetch As Bingbot позволяет запросить сканирование страницы и показать ее вам так, как ее увидит наш сканер. Вы увидите код страницы так, как его увидит Bingbot, что поможет вам понять, видят ли они вашу страницу так, как вы предполагали.
См. документацию Bingbot robots. txt.
3. Slurp Bot
Результаты поиска Yahoo поступают от поискового робота Yahoo Slurp и поискового робота Bing, так как многие Yahoo работают на базе Bing. Сайты должны разрешать доступ Yahoo Slurp, чтобы они отображались в результатах поиска Yahoo Mobile.
Кроме того, Slurp делает следующее:
- Собирает контент с партнерских сайтов для включения в такие сайты, как Yahoo News, Yahoo Finance и Yahoo Sports.
- Доступ к страницам сайтов в Интернете для подтверждения точности и улучшения персонализированного контента Yahoo для наших пользователей.
Агент пользователя
Slurp
Full
User-Agent
stringMozilla/5.0 (совместимый; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
См. документацию Slurp robots.txt.
4. DuckDuckBot
DuckDuckBot — это веб-сканер для DuckDuckGo, поисковой системы, которая стала довольно популярной, поскольку известна своей конфиденциальностью и отсутствием слежки за вами. Теперь он обрабатывает более 93 миллионов запросов в день. DuckDuckGo получает результаты из разных источников. К ним относятся сотни вертикальных источников, предоставляющих нишевые мгновенные ответы, DuckDuckBot (их поисковый робот) и краудсорсинговые сайты (Википедия). У них также есть более традиционные ссылки в результатах поиска, которые они получают от Yahoo! и Бинг.
Агент пользователя
DuckDuckBot
Полный
User-Agent
stringDuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)
It respects WWW::RobotRules and originates from these IP addresses:
- 72.94.249.34
- 72.94.249.35
- 72.94.249.36
- 72.94.249.37
- 72.94.249.38
5. Baiduspider
Baiduspider — это официальное название паука китайской поисковой системы Baidu. Он сканирует веб-страницы и возвращает обновления в индекс Baidu. Baidu — ведущая китайская поисковая система, на долю которой приходится 80% всего рынка поисковых систем материкового Китая.
Агент пользователя
Baiduspider
Full
User-Agent
stringMozilla/5.0 (совместимо; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Помимо Crawler Baidu’s Web Search, на самом деле у них есть 6 дополнительных веб-сканеров:
Веб-гусеницы | Пользовательский агент Строка |
---|---|
ИЗОБРАЖЕНИЯ | |
ИЗОБРАЖЕНИЯ | |
.0035 Video Search | Baiduspider-video |
News Search | Baiduspider-news |
Baidu wishlists | Baiduspider-favo |
Baidu Union | Baiduspider-cpro |
Business Search | Baiduspider -ads |
Другие страницы поиска | Baiduspider |
См. документацию Baidu robots. txt.
6. Яндекс Бот
YandexBot — поисковый робот для одной из крупнейших российских поисковых систем Яндекс.
User-Agent
ЯндексБот
Full
User-Agent
stringMozilla/5.0 (совместимый; YandexBot/3.0; +http://yandex.com/bots)
Существует множество различных строк User-Agent, которые ЯндексБот может отображать в логах вашего сервера. См. полный список роботов Яндекса и документацию Яндекса robots.txt.
7. Паук Согоу
Sogou Spider — это поисковый робот для Sogou.com, ведущей китайской поисковой системы, которая была запущена в 2004 году. чрезмерное ползание.
User-Agent
Sogou Pic Spider/3.0 (http://www.sogou.com/docs/help/webmasters.htm#07) Головной паук Sogou/3.0 (http://www.sogou.com/docs/help/webmasters.htm#07) Веб-паук Sogou/4.0 (+http://www.sogou.com/docs/help/webmasters.htm#07) Паук Sogou Orion/3.0 (http://www.sogou.com/docs/help/webmasters. htm#07) Sogou-Test-Spider/4.0 (совместимый; MSIE 5.5; Windows 98)
8. Exabot
Exabot — поисковый робот для Exalead, поисковой системы, базирующейся во Франции. Он был основан в 2000 году и имеет более 16 миллиардов проиндексированных страниц.
User-Agent
Mozilla/5.0 (совместимый; Konqueror/3.5; Linux) KHTML/3.5.5 (как Gecko) (Exabot-Thumbnails) Mozilla/5.0 (совместимо; Exabot/3.0; +http://www.exabot.com/go/robot)
См. документацию Exabot robots.txt.
9. Facebook external hit
Facebook позволяет своим пользователям отправлять ссылки на интересный веб-контент другим пользователям Facebook. Часть того, как это работает в системе Facebook, включает временное отображение определенных изображений или деталей, связанных с веб-контентом, таких как название веб-страницы или встроенный тег видео. Система Facebook извлекает эту информацию только после того, как пользователь предоставит ссылку.
Одним из их основных сканирующих ботов является Facebot, предназначенный для повышения эффективности рекламы.
User-Agent
фейсбот facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
См. документацию Facebot robots.txt.
10. Applebot
Бренд компьютерных технологий Apple использует поисковый робот Applebot, в частности Siri и Spotlight Suggestions, для предоставления персонализированных услуг своим пользователям.
Агент пользователя
Applebot
Full
User-Agent
stringMozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, как Gecko) Версия/Safari_версия Safari/WebKit_версия (Applebot/Applebot_version)
Другие популярные поисковые роботы
Apache Nutch
Apache Nutch — поисковый робот с открытым исходным кодом, написанный на Java. Он выпущен под лицензией Apache и управляется Apache Software Foundation. Nutch может работать на одной машине, но чаще используется в распределенной среде. На самом деле, Nutch был разработан с нуля, чтобы быть масштабируемым и легко расширяемым.
Орех очень гибкий и может использоваться для различных целей. Например, Nutch можно использовать для обхода всего Интернета или только определенных веб-сайтов. Кроме того, Nutch можно настроить на индексацию страниц в режиме реального времени или по расписанию.
Одним из основных преимуществ Apache Nutch является его масштабируемость. Nutch можно легко масштабировать для обработки больших объемов данных и трафика. Например, большой веб-сайт электронной коммерции может использовать Apache Nutch для сканирования и индексации своего каталога продуктов. Это позволит клиентам искать продукты на своем веб-сайте с помощью внутренней поисковой системы компании.
Кроме того, Apache Nutch можно использовать для сбора данных о веб-сайтах. Компании могут использовать Apache Nutch для сканирования веб-сайтов конкурентов и сбора информации об их продуктах, ценах и контактной информации. Затем эта информация может быть использована для улучшения их присутствия в Интернете. Однако у Apache Nutch есть некоторые недостатки. Например, это может быть сложно настроить и использовать. Кроме того, Apache Nutch не так широко используется, как другие поисковые роботы, а это означает, что для него доступна меньшая поддержка.
Screaming Frog
Screaming Frog SEO Spider — это настольная программа (ПК или Mac), которая сканирует ссылки, изображения, CSS, скрипты и приложения веб-сайтов с точки зрения SEO.
Он извлекает ключевые элементы сайта для SEO, представляет их на вкладках по типам и позволяет вам фильтровать общие проблемы SEO или нарезать данные так, как вам нравится, экспортируя их в Excel.
Вы можете просматривать, анализировать и фильтровать данные сканирования по мере их сбора и извлечения в режиме реального времени с помощью простого интерфейса.
Программа бесплатна для небольших сайтов (до 500 URL). Для больших сайтов требуется лицензия.
Screaming Frog использует Chromium WRS для сканирования динамических веб-сайтов с большим количеством JavaScript, таких как Angular, React и Vue.js. Создание карты сайта WordPress, извлечение XPath и визуализация архитектуры сайта — другие важные функции.
Платформа обслуживает такие корпорации, как Apple, Amazon, Disney и даже Google. Screaming Frog также является популярным инструментом среди владельцев агентств и SEO-специалистов, которые управляют SEO для нескольких клиентов.
Deepcrawl
Deepcrawl — это облачный поисковый робот, который позволяет пользователям сканировать веб-сайты и собирать данные об их структуре, содержании и производительности.
DeepCrawl предоставляет пользователям несколько функций и опций, включая возможность сканирования веб-сайтов на основе JavaScript, настройку процесса сканирования и создание подробных отчетов.
Одной из самых уникальных функций Deepcrawl является его способность сканировать веб-сайты, созданные с помощью JavaScript. Это возможно, потому что Deepcrawl использует безголовый браузер (например, Chrome) для отображения содержимого веб-сайта перед его сканированием.
Это означает, что Deepcrawl может сканировать и собирать данные о веб-сайтах, которые не всегда могут быть доступны другим поисковым роботам.
Помимо гибких API, данные Deepcrawl интегрируются с Google Analytics, Google Search Console и другими популярными инструментами. Это позволяет пользователям легко сравнивать данные своего веб-сайта с данными конкурентов. Это также позволяет им связывать бизнес-данные (например, данные о продажах) с данными своего веб-сайта, чтобы получить полное представление о том, как работает их веб-сайт.
Deepcrawl лучше всего подходит для компаний с большими веб-сайтами с большим количеством контента и страниц. Платформа менее подходит для небольших веб-сайтов или тех, которые не меняются очень часто.
Deepcrawl предлагает три разных продукта:
- Центр автоматизации: этот продукт интегрируется с конвейером CI/CD и автоматически сканирует ваш веб-сайт с более чем 200 правилами тестирования SEO QA.
- Центр аналитики: Этот продукт позволяет вам получать полезную информацию из данных вашего веб-сайта и улучшать SEO вашего веб-сайта.
- Концентратор мониторинга: этот продукт отслеживает изменения на вашем веб-сайте и предупреждает вас о появлении новых проблем.
Предприятия используют эти три продукта для улучшения SEO своего веб-сайта, отслеживания изменений и сотрудничества с командами разработчиков.
Octoparse
Octoparse — это удобное клиентское программное обеспечение для сканирования веб-страниц, которое позволяет извлекать данные со всего Интернета. Программа специально разработана для людей, не являющихся программистами, и имеет простой интерфейс «укажи и щелкни».
С помощью Octoparse вы можете запускать запланированные облачные извлечения для извлечения динамических данных, создавать рабочие процессы для автоматического извлечения данных с веб-сайтов и использовать его API парсинга веб-страниц для доступа к данным.
Его прокси-серверы IP позволяют сканировать веб-сайты без блокировки, а встроенная функция Regex автоматически очищает данные.
Благодаря готовым шаблонам скрейпера вы можете начать извлекать данные с популярных веб-сайтов, таких как Yelp, Google Maps, Facebook и Amazon, за считанные минуты. Вы также можете создать свой собственный парсер, если его нет в наличии для ваших целевых веб-сайтов.
HTTrack
Вы можете использовать бесплатное ПО HTTrack для загрузки целых сайтов на свой компьютер. Благодаря поддержке Windows, Linux и других систем Unix этот инструмент с открытым исходным кодом может использоваться миллионами.
Средство копирования веб-сайтов HTTrack позволяет загружать веб-сайты на компьютер, чтобы вы могли просматривать их в автономном режиме. Программу также можно использовать для зеркалирования веб-сайтов, что означает, что вы можете создать точную копию веб-сайта на своем сервере.
Программа проста в использовании и имеет множество функций, в том числе возможность возобновлять прерванные загрузки, обновлять существующие веб-сайты и создавать статические копии динамических веб-сайтов.
Вы можете получить файлы, фотографии и HTML-код с зеркального веб-сайта и возобновить прерванную загрузку.
Хотя HTTrack можно использовать для загрузки веб-сайтов любого типа, он особенно полезен для загрузки веб-сайтов, которые больше не доступны в сети.
HTTrack — отличный инструмент для тех, кто хочет загрузить весь веб-сайт или создать его зеркальную копию. Однако следует отметить, что программу можно использовать для загрузки нелегальных копий веб-сайтов.
Таким образом, вы должны использовать HTTrack только в том случае, если у вас есть разрешение от владельца веб-сайта.
SiteSucker
SiteSucker — это приложение для macOS, которое загружает веб-сайты. Он асинхронно копирует веб-страницы сайта, изображения, PDF-файлы, таблицы стилей и другие файлы на ваш локальный жесткий диск, дублируя структуру каталогов сайта.
Вы также можете использовать SiteSucker для загрузки определенных файлов с веб-сайтов, таких как файлы MP3.
Программа может использоваться для создания локальных копий веб-сайтов, что делает ее идеальной для просмотра в автономном режиме.
Это также полезно для загрузки целых сайтов, чтобы вы могли просматривать их на своем компьютере без подключения к Интернету.
Одним из недостатков SiteSucker является то, что он не может обрабатывать Javascript (хотя может обрабатывать Flash). Тем не менее, он по-прежнему полезен для загрузки веб-сайтов на ваш Mac.
Webz.io
Пользователи могут использовать веб-приложение Webz.io для получения данных в режиме реального времени путем сканирования онлайн-источников по всему миру в различных удобных форматах. Этот поисковый робот позволяет сканировать данные и извлекать ключевые слова на нескольких языках на основе многочисленных критериев из различных источников.
Архив позволяет пользователям получать доступ к историческим данным. Пользователи могут легко индексировать и искать структурированные данные, просканированные Webhose, используя его интуитивно понятный интерфейс/API. Вы можете сохранять очищенные данные в форматах JSON, XML и RSS. Кроме того, Webz. io поддерживает до 80 языков с результатами сканирования данных.
Freemium бизнес-модель Webz.io должна подойти для предприятий с базовыми требованиями к сканированию. Для предприятий, которым требуется более надежное решение, Webz.io также предлагает поддержку мониторинга СМИ, угроз кибербезопасности, анализа рисков, финансового анализа, веб-аналитики и защиты от кражи личных данных.
Они даже поддерживают решения API даркнета для бизнес-аналитики.
UiPath
UiPath — это приложение Windows, которое можно использовать для автоматизации повторяющихся задач. Это полезно для парсинга веб-страниц, поскольку оно может автоматически извлекать данные с веб-сайтов.
Программа проста в использовании и не требует знаний в области программирования. Он имеет визуальный интерфейс перетаскивания, который упрощает создание сценариев автоматизации.
С помощью UiPath вы можете извлекать табличные данные и данные на основе шаблонов с веб-сайтов, PDF-файлов и других источников. Программу также можно использовать для автоматизации таких задач, как заполнение онлайн-форм и загрузка файлов.
Коммерческая версия инструмента предоставляет дополнительные возможности сканирования. При работе со сложными пользовательскими интерфейсами этот подход очень успешен. Инструмент очистки экрана может извлекать данные из таблиц как по отдельным словам, так и по группам текста, а также по блокам текста, таким как RSS-каналы.
Кроме того, вам не нужны навыки программирования для создания интеллектуальных веб-агентов, но если вы хакер .NET, вы сможете полностью контролировать их данные.
Плохие боты
Хотя большинство поисковых роботов безопасны, некоторые из них могут использоваться в злонамеренных целях. Эти вредоносные веб-сканеры, или «боты», могут использоваться для кражи информации, проведения атак и совершения мошенничества. Также все чаще обнаруживается, что эти боты игнорируют директивы robots.txt и переходят непосредственно к сканированию веб-сайтов.
Некоторые выдающиеся плохие боты приведены ниже:
- Petalbot
- Semrushbot
- Majestic
- Dotbot
- Ahrefsbot
Профилает свой сайт от Malicoe Websbot
. брандмауэр веб-приложений (WAF) для защиты вашего сайта от ботов и других угроз. WAF — это часть программного обеспечения, которое находится между вашим веб-сайтом и Интернетом и фильтрует трафик до того, как он попадет на ваш сайт.CDN также может помочь защитить ваш сайт от ботов. CDN — это сеть серверов, которые доставляют контент пользователям в зависимости от их географического положения.
Когда пользователь запрашивает страницу с вашего веб-сайта, CDN направляет запрос на сервер, ближайший к местоположению пользователя. Это может помочь снизить риск атаки ботов на ваш сайт, поскольку им придется нацеливаться на каждый сервер CDN в отдельности.
У KeyCDN есть отличная функция, которую вы можете включить на своей панели инструментов, которая называется «Блокировка плохих ботов». KeyCDN использует полный список известных вредоносных ботов и блокирует их на основе их User-Agent
строка.
При добавлении новой зоны для функции Блокировать плохих ботов устанавливается значение отключено
. Этот параметр можно установить на с включенным
, если вы хотите, чтобы плохие боты автоматически блокировались.
Ресурсы бота
Возможно, вы видите некоторые строки пользовательского агента в своих журналах, которые вас беспокоят. Вот несколько хороших ресурсов, на которых вы можете найти популярных плохих ботов, сканеров и парсеров.
- BotReports.com
У Кайо Алмейды также есть довольно хороший список в его проекте GitHub для поисковых агентов.
Резюме
Существуют сотни различных поисковых роботов, но, надеюсь, вы уже знакомы с несколькими наиболее популярными из них. Опять же, вы должны быть осторожны при блокировании любого из них, так как они могут вызвать проблемы с индексацией. Всегда полезно проверить журналы вашего веб-сервера, чтобы узнать, как часто они сканируют ваш сайт.
Какой ваш любимый поисковый робот? Дайте нам знать в комментариях ниже.
Полное руководство по SEO (с примерами)
Сегодня вы узнаете, как создать один из самых важных файлов для SEO веб-сайта:
(файл robots.txt).
В частности, я покажу вам, как использовать протоколы исключения роботов для блокировки ботов на определенных страницах, увеличения частоты сканирования, оптимизации бюджета сканирования и, в конечном итоге, повышения рейтинга нужной страницы в поисковой выдаче.
Я покрываю:
- Что такое файл robots.txt
- Почему файл robots.txt важен
- Как работает файл robots.txt
- Роботы.txt пользовательские агенты и директивы
- Robots.txt против мета-роботов
- Как найти файл robots.txt
- Создание файла robots.txt
- Рекомендации по использованию файла robots.txt
- Примеры robots. txt
- Как проверить файл robots.txt на наличие ошибок
Плюс многое другое. Давайте начнем.
Что такое файл Robots.txt? И зачем он нужен
Проще говоря, файл robots.txt представляет собой учебное пособие для веб-роботов.
Сообщает ботам всех типов, какие разделы сайта им следует (и не следует) сканировать.
Тем не менее, robots.txt используется в основном как «кодекс поведения» для контроля активности роботов поисковых систем (веб-сканеров).
Файл robots.txt регулярно проверяется всеми основными поисковыми системами (включая Google, Bing и Yahoo) на наличие инструкций о том, как им следует сканировать веб-сайт. Эти инструкции известны как директивы .
При отсутствии директив или файла robots.txt поисковые системы будут сканировать весь веб-сайт, частные страницы и все остальное.
Хотя большинство поисковых систем послушны, важно отметить, что соблюдение директив robots.txt не является обязательным. При желании поисковые системы могут игнорировать ваш файл robots.txt.
К счастью, Google не является одной из таких поисковых систем. Google склонен подчиняться инструкциям в файле robots.txt.
Почему файл robots.txt важен?
Наличие файла robots.txt не критично для многих веб-сайтов, особенно для небольших.
Это потому, что Google обычно может найти и проиндексировать все основные страницы сайта.
И они НЕ будут автоматически индексировать дублированный контент или страницы, которые не важны.
Тем не менее, нет веских причин не иметь файл robots.txt, поэтому я рекомендую вам его иметь.
Файл robots.txt дает вам больший контроль над тем, что поисковые системы могут и не могут сканировать на вашем веб-сайте, и это полезно по нескольким причинам:
Позволяет блокировать непубличные страницы от поисковых систем
Иногда на вашем сайте есть страницы, которые вы не хотите индексировать.
Например, вы можете разрабатывать новый веб-сайт в тестовой среде, который вы хотите скрыть от пользователей до запуска.
Или у вас могут быть страницы входа на веб-сайт, которые вы не хотите отображать в поисковой выдаче.
Если бы это было так, вы могли бы использовать robots.txt, чтобы заблокировать эти страницы от сканеров поисковых систем.
Controls Search Engine Crawl Budget
Если вам трудно проиндексировать все ваши страницы в поисковых системах, у вас может быть проблема с краулинговым бюджетом.
Проще говоря, поисковые системы тратят время, отведенное на сканирование вашего контента на мертвых страницах вашего веб-сайта.
Блокируя URL-адреса с низкой полезностью с помощью файла robots.txt, роботы поисковых систем могут тратить больше своего краулингового бюджета на наиболее важные страницы.
Предотвращает индексацию ресурсов
Лучше всего использовать метадирективу «no-index», чтобы запретить индексацию отдельных страниц.
Проблема в том, что метадирективы плохо работают с мультимедийными ресурсами, такими как PDF-файлы и документы Word.
Вот где пригодится файл robots.txt.
Вы можете добавить простую строку текста в файл robots.txt, и поисковые системы не смогут получить доступ к этим мультимедийным файлам.
(я покажу вам, как именно это сделать позже в этом посте)
Как (точно) работает файл robots.txt?
Как я уже говорил, файл robots.txt служит инструкцией для роботов поисковых систем. Он сообщает поисковым ботам, где (и где нельзя) им сканировать.
Вот почему поисковый робот будет искать файл robots.txt, как только он попадет на веб-сайт.
Если файл robots.txt будет найден, сканер сначала прочитает его, прежде чем продолжить сканирование сайта.
Если поисковый робот не найдет файл robots.txt или файл не содержит директив, запрещающих деятельность поисковых роботов, сканер продолжит сканирование всего сайта в обычном режиме.
Чтобы поисковые роботы могли найти и прочитать файл robots.txt, файл robots.txt форматируется особым образом.
Во-первых, это текстовый файл без кода разметки HTML (отсюда и расширение . txt).
Во-вторых, он помещается в корневую папку сайта, например, https://seosherpa.com/robots.txt.
В-третьих, используется стандартный синтаксис, общий для всех файлов robots.txt, например:
Карта сайта: [URL-адрес карты сайта] Агент пользователя: [идентификатор бота] [директива 1] [директива 2] [директива ...] User-agent: [идентификатор другого бота] [директива 1] [директива 2] [директива...]
На первый взгляд этот синтаксис может показаться сложным, но на самом деле он довольно прост.
Короче говоря, вы определяете бота (агента пользователя), к которому применяются инструкции, а затем устанавливаете правила (директивы), которым должен следовать бот.
Давайте рассмотрим эти два компонента более подробно.
User-Agents
User-agent — это имя, используемое для определения определенных поисковых роботов и других программ, активных в Интернете.
Существуют буквально сотни пользовательских агентов, включая агенты для типов устройств и браузеров.
Большинство из них не имеет значения в контексте файла robots.txt и поисковой оптимизации. С другой стороны, они должны знать:
- Google: Googlebot
- Google Изображения: Googlebot-Image
- Google Video: GoogleBot-Video
- Google Video: GoogleBot-Video
- Google Video: GoogleBot-Video
- Google News: News
- . Bing: Bingbot
- Bing Images & Videos: MSNBot-Media
- Yahoo: Slurp
- Yandex: YandexBot
- Baidu : Baiduspider
- DuckDuckGo: DuckDuckBot
Указав пользовательский агент, вы можете установить разные правила для разных поисковых систем.
Например, если вы хотите, чтобы определенная страница отображалась в результатах поиска Google, но не в результатах поиска Baidu, вы можете включить в файл robots. txt два набора команд: один набор предваряется «User-agent: Bingbot», а другой установить перед «User-agent: Baiduspider».
Вы также можете использовать подстановочный знак звездочки (*), если хотите, чтобы ваши директивы применялись ко всем пользовательским агентам.
Допустим, вы хотите запретить всем роботам поисковых систем сканировать ваш сайт, кроме DuckDuckGo. Вот как это сделать:
User-agent: * Запретить: / Агент пользователя: DuckDuckBot Разрешить: /
Примечание: Если в файле robots.txt есть противоречивые команды, бот будет следовать более детализированной команде.
Вот почему в приведенном выше примере DuckDuckBot знает, что нужно сканировать веб-сайт, несмотря на то, что предыдущая директива (применимая ко всем ботам) запрещала сканирование. Короче говоря, бот будет следовать инструкции, которая наиболее точно относится к нему.
Директивы
Директивы — это кодекс поведения, которому должен следовать пользовательский агент. Другими словами, директивы определяют, как поисковый робот должен сканировать ваш веб-сайт.
Вот директивы, которые в настоящее время поддерживает GoogleBot, а также их использование в файле robots.txt:
Disallow
Используйте эту директиву, чтобы запретить поисковым роботам сканировать определенные файлы и страницы по определенному пути URL.
Например, если вы хотите запретить роботу GoogleBot доступ к вашей вики и всем ее страницам, файл robots.txt должен содержать следующую директиву:
Агент пользователя: GoogleBot Disallow: /wiki
Вы можете использовать директиву disallow, чтобы заблокировать сканирование определенного URL-адреса, всех файлов и страниц в определенном каталоге и даже всего вашего веб-сайта.
Разрешить
Директива allow полезна, если вы хотите разрешить поисковым системам сканировать определенный подкаталог или страницу в запрещенном разделе вашего сайта.
Допустим, вы хотите запретить всем поисковым системам сканировать записи в вашем блоге, кроме одной; тогда вы должны использовать директиву allow следующим образом:
Агент пользователя: * Запретить: /блог Разрешить: /blog/allowable-post
Поскольку поисковые роботы всегда следуют наиболее подробным инструкциям, данным в файле robots. txt, они знают, что нужно сканировать /blog/allowable-post, , но не будут сканировать другие сообщения или файлы. в этом каталоге вроде;
- /blog/post-one/
- /blog/post-two/
- /blog/file-name.pdf
Google и Bing поддерживают эту директиву. Но других поисковых систем нет.
Карта сайта
Директива карты сайта используется для указания местоположения ваших карт сайта в формате XML для поисковых систем.
Если вы новичок в картах сайта, они используются для перечисления страниц, которые вы хотите просканировать и проиндексировать в поисковых системах.
Включая директиву карты сайта в robots.txt, вы помогаете поисковым системам находить вашу карту сайта и, в свою очередь, сканировать и индексировать наиболее важные страницы вашего веб-сайта.
При этом, если вы уже отправили свою XML-карту сайта через консоль поиска, добавление вашей карты сайта в robots.txt несколько избыточно для Google. Тем не менее, лучше всего использовать директиву карты сайта, поскольку она сообщает поисковым системам, таким как Ask, Bing и Yahoo, где можно найти ваши карты сайта.
Вот пример файла robots.txt с использованием директивы карты сайта:
Карта сайта: https://www.website.com/sitemap.xml Пользовательский агент: * Запретить: /вики/ Разрешить: /wike/article-title/
Обратите внимание на размещение директивы карты сайта в файле robots.txt. Лучше всего разместить его в самом верху файла robots.txt. Его также можно разместить внизу.
Если у вас несколько файлов Sitemap, вы должны включить их все в файл robots.txt. Вот как мог бы выглядеть файл robots.txt, если бы у нас были отдельные карты сайта XML для страниц и сообщений:
Карта сайта: http://website.com/post-sitemap.xml Карта сайта: http://website.com/page-sitemap.xml Пользовательский агент: * Запретить: /вики/ Разрешить: /wike/article-title/
В любом случае вам нужно только один раз упомянуть каждую карту сайта XML, поскольку все поддерживаемые пользовательские агенты будут следовать директиве.
Обратите внимание, что в отличие от других директив robots. txt, в которых перечислены пути, в директиве карты сайта должен быть указан абсолютный URL-адрес вашей XML-карты сайта, включая протокол, имя домена и расширение домена верхнего уровня.
Комментарии
Комментарий «директива» полезен для людей, но не используется поисковыми ботами.
Вы можете добавить комментарии, чтобы напомнить вам, почему существуют определенные директивы, или запретить тем, у кого есть доступ к вашему файлу robots.txt, удалять важные директивы. Короче говоря, комментарии используются для добавления заметок в файл robots.txt.
Чтобы добавить комментарий, введите». #"
с текстом комментария.
# Запретить доступ к каталогу /wp-admin/ всем роботам. Пользовательский агент: * Запретить: /wp-admin/
Вы можете добавить комментарий в начале строки (как показано выше) или после директивы в той же строке (как показано ниже):
Агент пользователя: * # Относится ко всем роботам Disallow: /wp-admin/ # Запретить доступ к каталогу /wp-admin/.
Где бы вы ни написали свой комментарий, все после решетки будет проигнорировано.
До сих пор следуешь?
Отлично! Теперь мы рассмотрели основные директивы, которые вам понадобятся для файла robots.txt — это также единственные директивы, поддерживаемые Google.
А как насчет других поисковых систем? В случае Bing, Yahoo и Яндекс есть еще одна директива, которую вы можете использовать:
Crawl Delay
Директива Crawl-delay — это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов на сканирование.
Другими словами, вы используете его, чтобы ограничить частоту, с которой поисковая система может сканировать ваш сайт.
Имейте в виду, если поисковые системы могут перегружать ваш сервер из-за частого сканирования вашего веб-сайта, добавление директивы Crawl-delay в файл robots.txt лишь временно устранит проблему.
Дело может быть в том, что ваш веб-сайт работает на дрянном хостинге или в неправильно настроенной среде хостинга, и это нужно быстро исправить.
Директива задержки сканирования определяет время в секундах, в течение которого поисковый бот может сканировать ваш веб-сайт.
Например, если вы установите задержку сканирования на 5, поисковые роботы будут разбивать день на пятисекундные окна, сканируя только одну страницу (или ни одной) в каждом окне, максимум около 17 280 URL-адресов в течение дня.
При этом будьте осторожны при установке этой директивы, особенно если у вас большой сайт. Всего 17 280 URL-адресов, просканированных в день, не очень полезны, если на вашем сайте миллионы страниц.
То, как каждая поисковая система обрабатывает директиву задержки сканирования, отличается. Давайте разберем это ниже:
Crawl-delay и Bing, Yahoo и YandexBing, Yahoo и Yandex поддерживают директиву Crawl-delay в robots.txt.
Это означает, что вы можете установить директиву задержки сканирования для пользовательских агентов BingBot, Slurp и YandexBot, и поисковая система соответствующим образом ограничит сканирование.
Обратите внимание, что каждая поисковая система интерпретирует задержку сканирования немного по-разному, поэтому обязательно ознакомьтесь с их документацией: директива задержки для каждого из этих двигателей одинакова. Вы должны поместить его сразу после директивы «запретить» или «разрешить». Вот пример:
Агент пользователя: BingBot Разрешить: /виджеты/ Crawl-delay: 5Crawl-delay и Google
Сканер Google не поддерживает директиву Crawl-delay, поэтому нет смысла устанавливать задержку сканирования для GoogleBot в robots.txt.
Однако Google поддерживает определение скорости сканирования в Google Search Console. Вот как это сделать:
- Перейдите на страницу настроек Google Search Console.
- Выберите свойство, для которого вы хотите определить скорость сканирования
- Нажмите «Ограничить максимальную скорость сканирования Google».
- Отрегулируйте ползунок до желаемой скорости сканирования. По умолчанию скорость сканирования имеет настройку «Разрешить Google оптимизировать мой сайт (рекомендуется)».
Как и Google, Baidu не поддерживает директиву о задержке сканирования. Однако можно зарегистрировать учетную запись Инструментов для веб-мастеров Baidu, в которой вы сможете контролировать частоту сканирования, как в Google Search Console.
Суть? Robots.txt указывает поисковым роботам не сканировать определенные страницы вашего сайта.
Robots.txt против мета-роботов против x-роботов
Существует чертовски много инструкций для «роботов». В чем отличия или это одно и то же?
Позвольте мне дать краткое объяснение:
Во-первых, robots.txt — это настоящий текстовый файл, тогда как meta и x-robots — это теги в коде веб-страницы.
Во-вторых, файл robots.txt дает ботам подсказок как сканировать страницы веб-сайта. С другой стороны, метадирективы роботов содержат очень строгие инструкции по сканированию и индексированию содержимого страницы.
Помимо того, что они есть, все трое выполняют разные функции.
Robots.txt определяет поведение обхода сайта или всего каталога, в то время как meta и x-robots могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).
В общем:
Если вы хотите, чтобы страница не индексировалась, вы должны использовать метатег robots «no-index». Запрет страницы в robots.txt не гарантирует, что она не будет отображаться в поисковых системах (в конце концов, директивы robots.txt являются рекомендациями). Кроме того, робот поисковой системы все еще может найти этот URL-адрес и проиндексировать его, если на него есть ссылка с другого веб-сайта.
Наоборот, если вы хотите предотвратить индексацию медиафайла, лучше всего использовать файл robots.txt. Вы не можете добавлять метатеги robots в такие файлы, как jpeg или PDF.
Как найти файл robots.txt
Если на вашем веб-сайте уже есть файл robots.txt, вы сможете получить к нему доступ по адресу yourdomain. com/robots.txt.
Перейдите по URL в браузере.
Если вы видите текстовую страницу, подобную приведенной выше, значит, у вас есть файл robots.txt.
Как создать файл robots.txt
Если у вас еще нет файла robots.txt, создать его несложно.
Сначала откройте Блокнот, Microsoft Word или любой текстовый редактор и сохраните файл как «роботы».
Обязательно используйте строчные буквы и выберите .txt в качестве расширения типа файла:
Во-вторых, добавьте свои директивы. Например, если вы хотите запретить всем поисковым роботам сканировать ваш каталог /login/, введите следующее:
Продолжайте добавлять директивы, пока не будете удовлетворены файлом robots.txt.
Кроме того, вы можете сгенерировать файл robots.txt с помощью такого инструмента, как этот, от Ryte.
Одним из преимуществ использования инструмента является минимизация человеческих ошибок.
Всего одна небольшая ошибка в синтаксисе robots.txt может привести к катастрофе SEO.
Тем не менее, недостатком использования генератора robots.txt является то, что возможности настройки минимальны.
Вот почему я рекомендую вам научиться писать файл robot.txt самостоятельно. Затем вы можете создать файл robots.txt в точном соответствии с вашими требованиями.
Куда поместить файл robots.txt
Добавьте файл robots.txt в каталог верхнего уровня субдомена, к которому он относится.
Например, чтобы управлять сканированием на yourdomain.com , файл robots.txt должен быть доступен по URL-адресу yourdomain.com/robots.txt .
С другой стороны, если вы хотите контролировать сканирование субдоменов, таких как shop.yourdomain.com , файл robots.txt должен быть доступен по URL-пути shop.yourdomain.com/robots.txt .
Золотые правила:
- Дайте каждому поддомену на вашем сайте свой собственный файл robots.txt.
- Назовите файл(ы) robots.txt все в нижнем регистре.
- Поместите файл в корневой каталог поддомена, на который он ссылается.
Если файл robots.txt не может быть найден в корневом каталоге, поисковые системы решат, что директив нет, и просканируют ваш сайт целиком.
Рекомендации по использованию файла robots.txt
Далее рассмотрим правила для файлов robots.txt. Используйте эти рекомендации, чтобы избежать распространенных ошибок, связанных с файлом robots.txt:
Используйте новую строку для каждой директивы
Каждая директива в файле robots.txt должна располагаться на новой строке.
В противном случае поисковые системы будут путаться в том, что сканировать (и индексировать).
Это, например, неправильно настроено:
User-agent: * Disallow: /folder/ Disallow: /another-folder/
Это, с другой стороны, правильно настроены роботы. txt файл:
Агент пользователя: * Запретить: /папка/ Запретить: /другая-папка/
Указание «почти» всегда имеет преимущество.
Например, эта директива Allow имеет преимущество перед директивой Disallow, поскольку ее длина символа больше.
Агент пользователя: * Запретить: /о/ Разрешить: /about/company/
Google и Bing могут сканировать /about/company/, но не любые другие страницы в каталоге /about/.
Однако в случае с другими поисковыми системами все наоборот.
По умолчанию для всех основных поисковых систем, кроме Google и Bing, директива , первая совпадающая, всегда выигрывает .
В приведенном выше примере поисковые системы будут следовать директиве Disallow и игнорировать директиву Allow, что означает, что страница /about/company не будет сканироваться.
Учитывайте это при создании правил для всех поисковых систем.
Только одна группа директив для каждого агента пользователя
Если бы ваш файл robots.txt содержал несколько групп директив для каждого агента пользователя, боже мой, это могло бы запутать?
Не обязательно для роботов, потому что они будут объединять все правила из разных объявлений в одну группу и следовать им всем, но для вас.
Чтобы избежать возможных ошибок, связанных с человеческим фактором, укажите агент пользователя один раз, а затем перечислите ниже все директивы, применимые к этому агенту пользователя.
Делая все аккуратно и просто, вы с меньшей вероятностью сделаете ошибку.
Используйте подстановочные знаки (*) для упрощения инструкций
Вы заметили подстановочные знаки (*) в приведенном выше примере?
Правильно; вы можете использовать подстановочные знаки (*), чтобы применить правила ко всем пользовательским агентам И чтобы соответствовать шаблонам URL при объявлении директив.
Например, если вы хотите запретить поисковым роботам доступ к URL-адресам параметризованных категорий продуктов на вашем веб-сайте, вы можете перечислить каждую категорию следующим образом:
User-agent: * Запретить: /products/watches? Запретить: /продукты/сумки? Запретить: /products/shoes?
Или вы можете использовать подстановочный знак, который применит правило ко всем категориям. Вот как это будет выглядеть:
Агент пользователя: * Запретить: /продукты/*?
В этом примере поисковые системы не могут сканировать все URL-адреса в подпапке /product/, содержащие вопросительный знак. Другими словами, любые параметризованные URL-адреса категорий продуктов.
Google, Bing, Yahoo поддерживают использование подстановочных знаков в директивах robots.txt и Ask.
Используйте «$», чтобы указать конец URL
Чтобы указать конец URL, используйте знак доллара ( $
) после пути robots.txt.
Допустим, вы хотите запретить поисковым ботам доступ ко всем файлам .doc на вашем сайте; тогда вы должны использовать эту директиву:
User-agent: * Disallow: /*.doc$
Это предотвратит доступ поисковых систем к любым URL-адресам, заканчивающимся на .doc.
Это означает, что они не будут сканировать /media/file.doc, но будут сканировать /media/file.doc?id=72491, поскольку этот URL-адрес не заканчивается на «. doc».
Каждый субдомен получает свой robots.txt
Директивы robots.txt применяются только к (суб)домену, на котором размещен файл robots.txt.
Это означает, что если ваш сайт имеет несколько поддоменов, таких как:
- domain.com
- ticket.domain.com
- events.domain.com
Для каждого поддомена потребуется собственный файл robots.txt.
Файл robots.txt всегда следует добавлять в корневой каталог каждого поддомена. Вот как будут выглядеть пути в приведенном выше примере:
- domain.com/robots.txt
- ticket.domain.com/robots.txt
- events.domain.com/robots.txt
Не используйте noindex в robots.txt
Проще говоря, Google не поддерживает директиву no-index в robots.txt.
Хотя Google и следовал ему в прошлом, с июля 2019 года Google полностью прекратил его поддержку.
И если вы думаете об использовании директивы no-index robots.txt для неиндексируемого содержимого в других поисковых системах, подумайте еще раз:
Недокументированная директива noindex никогда не работала для @Bing, так что это выровняет поведение между двумя двигатели. Метатег NOINDEX или HTTP-заголовок, коды возврата 404/410 — все это прекрасные способы удалить ваш контент из @Bing. #SEO #ТехническоеSEO https://t.co/ukKhfRPWzO
— Frédéric Dubut (@CoperniX) 2 июля 2019 г.
Неофициальная директива no-index никогда не работала в Bing.
На сегодняшний день лучший способ запретить индексацию контента в поисковых системах — применить метатег robots без индекса к странице, которую вы хотите исключить.
Не превышайте размер файла robots.txt 512 КБ
Google в настоящее время имеет ограничение на размер файла robots.txt в 500 кибибайт (512 килобайт).
Это означает, что любой контент размером более 512 КБ может быть проигнорирован.
Тем не менее, учитывая, что один символ занимает всего один байт, файл robots.txt должен быть ОГРОМНЫМ, чтобы достичь этого предела размера файла (точнее, 512 000 символов). Сохраняйте файл robots.txt компактным, уделяя меньше внимания отдельно исключенным страницам и больше — более широким шаблонам, которыми могут управлять подстановочные знаки.
Неясно, есть ли у других поисковых систем максимально допустимый размер файлов robots.txt.
Robots.txt Examples
Ниже приведены несколько примеров файлов robots.txt.
Они включают комбинации директив, которые наше SEO-агентство чаще всего использует в файлах robots.txt для клиентов. Однако имейте в виду; это только для вдохновения. Вам всегда нужно будет настраивать файл robots.txt в соответствии с вашими требованиями.
Разрешить всем роботам доступ ко всему
Этот файл robots.txt не содержит правил запрета для всех поисковых систем:
Агент пользователя: * Disallow:
Другими словами, он позволяет поисковым роботам сканировать все. Он служит той же цели, что и пустой файл robots.txt или отсутствие файла robots.txt.
Запретить всем роботам доступ ко всему
Пример файла robots.txt указывает всем поисковым системам не получать доступ к чему-либо после завершающей косой черты. Другими словами, весь домен:
User-agent: * Disallow: /
Короче говоря, этот файл robots. txt блокирует всех роботов поисковых систем и может помешать показу вашего сайта на страницах результатов поиска.
Запретить всем роботам сканирование одного файла
В этом примере мы блокируем всем поисковым роботам сканирование определенного файла.
Агент пользователя: * Запретить: /directory/this-is-a-file.pdf
Запретить всем роботам сканирование файлов одного типа (doc, pdf, jpg)
делается с помощью мета-тега робота «no-index»; вы можете использовать следующую директиву, чтобы запретить индексацию файлов определенного типа.
Агент пользователя: * Запретить: /*.doc$ Запретить: /*.pdf$ Disallow: /*.jpg$
Это будет работать для деиндексации всех файлов этого типа, если ни один отдельный файл не связан с каким-либо другим местом в Интернете.
Запретить Google сканирование нескольких каталогов
Вы можете заблокировать сканирование нескольких каталогов для определенного бота или всех ботов. В этом примере мы запрещаем роботу Googlebot сканировать два подкаталога.
Агент пользователя: Googlebot Запретить: /admin/ Disallow: /private/
Обратите внимание, что количество каталогов, которые вы можете использовать, не ограничено. Просто перечислите каждый из них под пользовательским агентом, к которому применяется директива.
Запретить Google сканирование всех параметризованных URL-адресов
Эта директива особенно полезна для веб-сайтов, использующих фасетную навигацию, где может быть создано множество параметризованных URL-адресов.
Агент пользователя: Googlebot Запретить: /*?
Эта директива не позволяет использовать ваш краулинговый бюджет для динамических URL-адресов и максимально увеличивает сканирование важных страниц. Я использую это регулярно, особенно на веб-сайтах электронной коммерции с функцией поиска.
Запретить всем ботам сканирование одного подкаталога, но разрешить сканирование одной страницы внутри
Иногда может потребоваться запретить поисковым роботам доступ ко всему разделу вашего сайта, но оставить доступной одну страницу. Если вы это сделаете, используйте следующую комбинацию директив «разрешить» и «запретить»:
Агент пользователя: * Запретить: /категория/ Разрешить: /category/widget/
Указывает поисковым системам не сканировать весь каталог, за исключением одной конкретной страницы или файла.
Robots.txt для WordPress
Это базовая конфигурация, которую я рекомендую для файла robots.txt WordPress. Он блокирует сканирование административных страниц, тегов и URL-адресов авторов, что может создать ненужный мусор на веб-сайте WordPress.
Агент пользователя: * Разрешить: /wp-content/uploads/ Запретить: /wp-content/plugins/ Запретить: /wp-admin/ Запретить: /readme.html Запретить: /см./ Запретить: /тег/ Запретить: /автор/ Запретить: /404-ошибка/ Карта сайта: http://www.example.com/post-sitemap.xml Карта сайта: http://www.example.com/page-sitemap.xml
Этот файл robots.txt будет хорошо работать для большинства веб-сайтов WordPress, но, конечно, вы должны всегда настраивать его под свои нужды.
Как проверить файл robots.txt на наличие ошибок
В свое время я видел больше ошибок, влияющих на рейтинг, в файлах robots.txt, чем, возможно, в любом другом аспекте технического SEO. С таким количеством потенциально конфликтующих директив могут возникать проблемы.
Итак, когда дело доходит до файлов robots.txt, стоит следить за проблемами.
К счастью, отчет «Покрытие» в Google Search Console предоставляет вам возможность проверять и отслеживать проблемы с файлом robots.txt.
Вы также можете использовать отличный инструмент тестирования Robots.txt от Google, чтобы проверить наличие ошибок в файле активных роботов или протестировать новый файл robots.txt перед его развертыванием.
В завершение рассмотрим наиболее распространенные проблемы, их значение и способы их решения.
Отправленный URL заблокирован robots.txt
Эта ошибка означает, что по крайней мере один из URL-адресов в отправленных картах сайта заблокирован robots. txt.
Правильно настроенная карта сайта должна включать только те URL-адреса, которые вы хотите индексировать в поисковых системах . Поэтому он не должен содержать непроиндексированных, канонизированных или перенаправленных страниц.
Если вы следовали этим рекомендациям, в вашей карте сайта не было отправлено ни одной страницы должен быть заблокированным robots.txt.
Если в отчете о покрытии вы видите сообщение «Отправленный URL-адрес заблокирован robots.txt», вам следует выяснить, какие страницы затронуты, а затем изменить файл robots.txt, чтобы снять блокировку для этой страницы.
Вы можете использовать тестер Google robots.txt, чтобы узнать, какая директива блокирует контент.
Заблокировано файлом robots.txt
Эта «ошибка» означает, что у вас есть страницы, заблокированные файлом robots.txt, которых в настоящее время нет в индексе Google.
Если этот контент полезен и должен быть проиндексирован, удалите блокировку обхода в robots. txt.
Короткое предупреждение:
«Заблокировано robots.txt» не обязательно является ошибкой. На самом деле, это может быть именно тот результат, который вы хотите.
Например, вы могли заблокировать определенные файлы в robots.txt, намереваясь исключить их из индекса Google. С другой стороны, если вы заблокировали сканирование определенных страниц с намерением не индексировать их, рассмотрите возможность снятия блокировки сканирования и вместо этого используйте метатег робота.
Это единственный способ гарантировать исключение контента из индекса Google.
Проиндексировано, но заблокировано файлом robots.txt
Эта ошибка означает, что некоторый контент, заблокированный файлом robots.txt, все еще индексируется в Google.
Это происходит, когда контент все еще может быть обнаружен роботом Googlebot, поскольку на него есть ссылки из других источников в Интернете. Короче говоря, робот Googlebot сканирует этот контент, а затем индексирует его перед посещением файла robots. txt вашего веб-сайта, где он видит запрещенную директиву.
К тому времени уже слишком поздно. И он будет проиндексирован:
Позвольте мне уточнить это:
Если вы пытаетесь исключить контент из результатов поиска Google, robots.txt не является правильным решением.
Я рекомендую удалить блокировку сканирования и вместо этого использовать метатег robots no-index, чтобы предотвратить индексирование.
Наоборот, если вы случайно заблокировали этот контент и хотите оставить его в индексе Google, снимите блокировку сканирования в robots.txt и оставьте все как есть.
Это может помочь улучшить видимость контента в поиске Google.
Заключительные мысли
Robots.txt можно использовать для улучшения сканирования и индексации контента вашего веб-сайта, что поможет вам стать более заметным в поисковой выдаче.
При эффективном использовании это самый важный текст на вашем сайте. Но при небрежном использовании он станет ахиллесовой пятой кода вашего сайта.