Seo

Seo txt: Всё что вам нужно знать

14.03.2020

Содержание

Что такое robots.txt и зачем он вообще нужен

Каждый блог дает свой ответ на этот счет. Поэтому новички в поисковом продвижении часто путаются, вот так:

Что за роботс ти экс ти?

Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP. Файл дает поисковым роботам рекомендации: какие страницы/файлы стоит сканировать. Если файл будет содержать символы не в UTF-8, а в другой кодировке, поисковые роботы могут неправильно их обработать. Правила, перечисленные в файле robots.txt, действительны только в отношении того хоста, протокола и номера порта, где размещен файл.

Файл должен располагаться в корневом каталоге в виде обычного текстового документа и быть доступен по адресу: https://site.com.ua/robots.txt.

В других файлах принято ставить отметку ВОМ (Byte Order Mark). Это Юникод-символ, который используется для определения последовательности в байтах при считывании информации. Его кодовый символ — U+FEFF. В начале файла robots.txt отметка последовательности байтов игнорируется.

Google установил ограничение по размеру файла robots.txt — он не должен весить больше 500 Кб.

Ладно, если вам интересны сугубо технические подробности, файл robots.txt представляет собой описание в форме Бэкуса-Наура (BNF). При этом используются правила RFC 822.

При обработке правил в файле robots.txt поисковые роботы получают одну из трех инструкций:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

При сканировании файла robots.txt роботы получают такие ответы:

  • 2xx — сканирование прошло удачно;
  • 3xx — поисковый робот следует по переадресации до тех пор, пока не получит другой ответ. Чаще всего есть пять попыток, чтобы робот получил ответ, отличный от ответа 3xx, затем регистрируется ошибка 404;
  • 4xx — поисковый робот считает, что можно сканировать все содержимое сайта;
  • 5xx — оцениваются как временные ошибки сервера, сканирование полностью запрещается. Робот будет обращаться к файлу до тех пор, пока не получит другой ответ.Поисковый робот Google может определить, корректно или некорректно настроена отдача ответов отсутствующих страниц сайта, то есть, если вместо 404 ошибки страница отдает ответ 5xx, в этом случае страница будет обрабатываться с кодом ответа 404.

Пока что неизвестно, как обрабатывается файл robots.txt, который недоступен из-за проблем сервера с выходом в интернет.

Зачем нужен файл robots.txt

Например, иногда роботам не стоит посещать:

  • страницы с личной информацией пользователей на сайте;
  • страницы с разнообразными формами отправки информации;
  • сайты-зеркала;
  • страницы с результатами поиска.

Важно: даже если страница находится в файле robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.

Так роботы поисковых систем видят сайт с файлом robots.txt и без него:

Без robots. txt та информация, которая должна быть скрыта от посторонних глаз, может попасть в выдачу, а из-за этого пострадаете и вы, и сайт.

Так робот поисковых систем видит файл robots.txt:

Google обнаружил файл robots.txt на сайте и нашел правила, по которым следует сканировать страницы сайта

Как создать файл robots.txt

С помощью блокнота, Notepad, Sublime, либо любого другого текстового редактора.

В содержании файла должны быть прописаны инструкция User-agent и правило Disallow, к тому же есть еще несколько второстепенных правил.

User-agent — визитка для роботов

User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в файле robots.txt. На данный момент известно 302 поисковых робота. Чтобы не прописывать всех по отдельности, стоит использовать запись:

Она говорит о том, что мы указываем правила в robots.txt для всех поисковых роботов.

Для Google главным роботом является Googlebot. Если мы хотим учесть только его, запись в файле будет такой:

В этом случае все остальные роботы будут сканировать контент на основании своих директив по обработке пустого файла robots.txt.

Для Yandex главным роботом является… Yandex:

Другие специальные роботы:

  • Mediapartners-Google — для сервиса AdSense;
  • AdsBot-Google — для проверки качества целевой страницы;
  • YandexImages — индексатор Яндекс.Картинок;
  • Googlebot-Image — для картинок;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YaDirectFetcher — робот Яндекс.Директа;
  • Googlebot-Video — для видео;
  • Googlebot-Mobile — для мобильной версии;
  • YandexDirectDyn — робот генерации динамических баннеров;
  • YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  • YandexMarket— робот Яндекс. Маркета;
  • YandexNews — робот Яндекс.Новостей;
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
  • YandexPagechecker — валидатор микроразметки;
  • YandexCalendar — робот Яндекс.Календаря.

Disallow — расставляем «кирпичи»

Disallow дает рекомендацию, какую именно информацию не стоит сканировать.

Такая запись открывает для сканирования весь сайт:

А эта запись говорит о том, что абсолютно весь контент на сайте запрещен для сканирования:

Ее стоит использовать, если сайт находится в процессе доработок, и вы не хотите, чтобы он в нынешнем состоянии засветился в выдаче.

Важно снять это правило, как только сайт будет готов к тому, чтобы его увидели пользователи. К сожалению, об этом забывают многие вебмастера.

Пример. Как прописать правило Disallow, чтобы дать рекомендации роботам не просматривать содержимое папки /papka/:

Чтобы роботы не сканировали конкретный URL:

Чтобы роботы не сканировали конкретный файл:

Чтобы роботы не сканировали все файлы определенного разрешения на сайте:

Данная строка запрещает индексировать все файлы с расширением . gif

Allow — направляем роботов

Allow разрешает сканировать какой-либо файл/директиву/страницу. Допустим, необходимо, чтобы роботы могли посмотреть только страницы, которые начинались бы с /catalog, а весь остальной контент закрыть. В этом случае прописывается следующая комбинация:

Правила Allow и Disallow сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.

Host — выбираем зеркало сайта

Host — одно из обязательных для robots.txt правил, оно сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.

Зеркало сайта — точная или почти точная копия сайта, доступная по разным адресам.

Робот не будет путаться при нахождении зеркал сайта и поймет, что главное зеркало указано в файле robots.txt. Адрес сайта указывается без приставки «http://», но если сайт работает на HTTPS, приставку «https://» указать нужно.

Как необходимо прописать это правило:

Пример файла robots.txt, если сайт работает на протоколе HTTPS:

Sitemap — медицинская карта сайта

Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу http://site.ua/sitemap.xml. При каждом обходе робот будет смотреть, какие изменения вносились в этот файл, и быстро освежать информацию о сайте в базах данных поисковой системы.

Инструкция должна быть грамотно вписана в файл:

Crawl-delay — секундомер для слабых серверов

Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта. Данное правило актуально, если у вас слабый сервер. В таком случае возможны большие задержки при обращении поисковых роботов к страницам сайта. Этот параметр измеряется в секундах.

Clean-param — охотник за дублирующимся контентом

Clean-param помогает бороться с get-параметрами для избежания дублирования контента, который может быть доступен по разным динамическим адресам (со знаками вопроса). Такие адреса появляются, если на сайте есть различные сортировки, id сессии и так далее.

Допустим, страница доступна по адресам:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

В таком случае файл robots.txt будет выглядеть так:

Здесь ref указывает, откуда идет ссылка, поэтому она записывается в самом начале, а уже потом указывается остальная часть адреса.

Но прежде чем перейти к эталонному файлу, необходимо еще узнать о некоторых знаках, которые применяются при написании файла robots.txt.

Символы в robots.txt

Основные символы файла —  «/, *, $, #».

С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами. Например, если стоит один слеш в правиле Disallow, мы запрещаем сканировать весь сайт. С помощью двух знаков слэш можно запретить сканирование какой-либо отдельной директории, например: /catalog/.

Такая запись говорит, что мы запрещаем сканировать все содержимое папки catalog, но если мы напишем /catalog, запретим все ссылки на сайте, которые будут начинаться на /catalog.

Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.

Эта запись говорит, что все роботы не должны индексировать любые файлы с расширением .gif в папке /catalog/

Знак доллара «$» ограничивает действия знака звездочки. Если необходимо запретить все содержимое папки catalog, но при этом нельзя запретить урлы, которые содержат /catalog, запись в индексном файле будет такой:

Решетка «#» используется для комментариев, которые вебмастер оставляет для себя или других вебмастеров. Робот не будет их учитывать при сканировании сайта.

Например:

Как выглядит идеальный robots.txt

Такой файл robots.txt можно разместить почти на любом сайте:

Файл открывает содержимое сайта для индексирования, прописан хост и указана карта сайта, которая позволит поисковым системам всегда видеть адреса, которые должны быть проиндексированы. Отдельно прописаны правила для Яндекса, так как не все роботы понимают инструкцию Host.

Но не спешите копировать содержимое файл к себе — для каждого сайта должны быть прописаны уникальные правила, которые зависит от типа сайта и CMS. поэтому тут стоит вспомнить все правила при заполнении файла robots.txt.

Как проверить файл robots.txt

Если хотите узнать, правильно ли заполнили файл robots.txt, проверьте его в инструментах вебмастеров Google и Яндекс. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.

Как не нужно заполнять файл robots.txt

Часто при заполнении индексного файла допускаются досадные ошибки, причем они связаны с обычной невнимательностью или спешкой. Чуть ниже — чарт ошибок, которые я встречала на практике.

1. Перепутанные инструкции:

Правильный вариант:

2. Запись нескольких папок/директорий в одной инструкции Disallow:

Такая запись может запутать поисковых роботов, они могут не понять, что именно им не следует индексировать: то ли первую папку, то ли последнюю, — поэтому нужно писать каждое правило отдельно.

3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT или как-то иначе.

4. Нельзя оставлять пустым правило User-agent — нужно сказать, какой робот должен учитывать прописанные в файле правила.

5. Лишние знаки в файле (слэши, звездочки).

6. Добавление в файл страниц, которых не должно быть в индексе.

Нестандартное применение robots.txt

Кроме прямых функций индексный файл может стать площадкой для творчества и способом найти новых сотрудников.

Вот сайт, в котором robots.txt сам является маленьким сайтом с рабочими элементами и даже рекламным блоком.

Хотите что-то поинтереснее? Ловите ссылку на robots.txt со встроенной игрой и музыкальным сопровождением.

Многие бренды используют robots.txt, чтобы еще раз заявить о себе:

В качестве площадки для поиска специалистов файл используют в основном SEO-агентства. А кто же еще может узнать о его существовании? 🙂

А у Google есть специальный файл humans. txt, чтобы вы не допускали мысли о дискриминации специалистов из кожи и мяса.

Когда у вебмастера появляется достаточно свободного времени, он часто тратит его на модернизацию robots.txt:

Хотите, чтобы все страницы вашего сайта заходили в индекс быстро? Мы выберем для вас оптимальную стратегию SEO-продвижения:

{«0»:{«lid»:»1531306243545″,»ls»:»10″,»loff»:»»,»li_type»:»nm»,»li_name»:»name»,»li_ph»:»Имя»,»li_req»:»y»,»li_nm»:»name»},»1″:{«lid»:»1573230091466″,»ls»:»20″,»loff»:»»,»li_type»:»ph»,»li_name»:»phone»,»li_req»:»y»,»li_masktype»:»a»,»li_nm»:»phone»},»2″:{«lid»:»1573567927671″,»ls»:»30″,»loff»:»y»,»li_type»:»in»,»li_name»:»surname»,»li_ph»:»Фамилия»,»li_req»:»y»,»li_nm»:»surname»},»3″:{«lid»:»1531306540094″,»ls»:»40″,»loff»:»»,»li_type»:»in»,»li_name»:»domains»,»li_ph»:»Адрес сайта»,»li_rule»:»url»,»li_req»:»y»,»li_nm»:»domains»},»4″:{«lid»:»1573230077755″,»ls»:»50″,»loff»:»»,»li_type»:»em»,»li_name»:»email»,»li_ph»:»Email»,»li_req»:»y»,»li_nm»:»email»},»5″:{«lid»:»1575903646714″,»ls»:»60″,»loff»:»»,»li_type»:»hd»,»li_name»:»comment»,»li_value»:»Автоматический коммент: заявка из блога, без пользовательского комментария»,»li_nm»:»comment»},»6″:{«lid»:»1575903664523″,»ls»:»70″,»loff»:»»,»li_type»:»hd»,»li_name»:»lead_channel_id»,»li_value»:»24″,»li_nm»:»lead_channel_id»},»7″:{«lid»:»1584374224865″,»ls»:»80″,»loff»:»»,»li_type»:»hd»,»li_name»:»ip»,»li_nm»:»ip»},»8″:{«lid»:»1609939359940″,»ls»:»90″,»loff»:»»,»li_type»:»hd»,»li_name»:»post_id»,»li_nm»:»post_id»}}

Поможем обогнать конкурентов

Выводы

С помощью Robots. txt вы сможете задавать инструкции поисковым роботам, рекламировать себя, свой бренд, искать специалистов. Это большое поле для экспериментов. Главное, помните о грамотном заполнении файла и типичных ошибках.

Правила, они же директивы, они же инструкции файла robots.txt:

  1. User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в robots.txt.
  2. Disallow дает рекомендацию, какую именно информацию не стоит сканировать.
  3. Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу http://site.ua/sitemap.xml.
  4. Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта.
  5. Host сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.
  6. Allow разрешает сканировать какой-либо файл/директиву/страницу.
  7. Clean-param помогает бороться с get-параметрами для избежания дублирования контента.

Знаки при составлении robots. txt:

  1. Знак доллара «$» ограничивает действия знака звездочки.
  2. С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами.
  3. Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.
  4. Решетка «#» используется, чтобы обозначить комментарии, которые пишет вебмастер для себя или других вебмастеров.

Используйте индексный файл с умом — и сайт всегда будет в выдаче.

Правильное заполнение файла robots.txt

Эффективное продвижение сайта невозможно без совершенствования его технических параметров, в том числе файла robots. Robots.txt — это текстовый файл, находящийся в корневом каталоге сайта. Он состоит из набора инструкций для индексирования и сканирования файлов, страниц и каталогов сайта для поисковых машин.

Сразу оговоримся, что присутствие файла robots.txt на сервере обязательно. Даже если вы полностью открываете ресурс для индексации.

Индексация robots.txt

Первое, что индексируют и сканируют поисковые системы на ресурсе, — файл robots.txt. Есть условия действительности файла:

  • Название. Исключительно robots.txt. Помните, что URL-адреса чувствительны к регистру.
  • Местоположение. Файл должен находиться в корневом каталоге верхнего уровня хоста и быть единственным.
  • Протокол. Поддерживаются все протоколы на основе URI — HTTP и HTTPS. Поисковые боты делают обычный GET-запрос, на который должен поступить ответ со статусом 200 OK. Возможна обработка файла с FTP-серверов: доступ осуществляется с использованием анонимного входа.
  • Формат. Файл должен быть в текстовом формате. Его можно создать в любом текстовом редакторе с поддержкой кодировки UTF-8. Не рекомендуем использовать текстовые процессоры, так как они могут сохранять файлы в проприетарном формате и добавлять дополнительные символы, не распознаваемые поисковыми роботами.
  • Размер. Для Google значение не должно превышать 500 килобайт, а для Яндекса — 32 КБ. Гугл переходит к файлу, но сканирует первые 500 килобайт, а Яндекс сразу смотрит на размер и, если лимит превышен, считает, что доступ к содержимому сайта закрыт. При успешном сканировании и индексировании файла Яндекс исполняет инструкции в течение 2 недель, а для Google они являются рекомендуемыми и не обязательны к исполнению.

Настройка robots.txt

Чтобы правильно заполнить robots.txt, в первую очередь нужно придерживаться правил, заданных поисковиками. Особенно это касается директив.

Директивы

Поисковые роботы Google, Яндекс. Bing, Yahoo и Ask поддерживают следующие директивы:

Директива Описание

User-agent

Обязательная директива. Указывает на поискового робота, которому адресованы правила. Учитывается название бота или *, которая адресует правила ко всем ботам. Наиболее популярные в России:

  1. Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebot – смотреть полную строку агента пользователя.
  2. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI.
  3. Остальные: Baiduspider — китайский поисковик Baidu, Cliqzbot — анонимная ПС Cliqz, AhrefsBot — сервис Ahrefs, BingBot
    — ПС Bing от Microsoft, Slurp — ПС Yahoo, DuckDuckBot — ПС DuckDuckGo, facebot — краулер от Facebook, MSNBot — ПС MSN, Mail. Ru — ПС Mail.ru, Teoma — сервис ASK.

Рекомендуем периодически просматривать логи сайта и закрыть доступ для агрессивных ботов, которых развелось очень много.

Allow и Disallow

Разрешает и запрещает индексирование и сканирование отдельных файлов, страниц и каталогов ресурса. Если не указан запрет, то по умолчанию сканирование разрешено.

Используйте запрет для:

  • конфиденциальных данных;
  • результатов поиска по ресурсу;
  • статистики посещаемости;
  • дублей;
  • логов;
  • страницы баз данных.

Их можно использовать совместно в одном блоке. Приоритет отдается более длинному правилу. Если префиксы одинаковой длины, то при конфликте приоритет отдается Allow.

Sitemap

Указывает путь к одноименному файлу.

Clean-param

Указывает параметры страницы, которые не нужно учитывать. Существует два типа параметров URL:

  1. Параметры отслеживания — UTM-метки;
  2. Параметры, влияющие на контент, — например, результаты фильтрации.

Не стоит очищать параметры, влияющие на контент, поскольку их можно использовать как точку входа при SEO-продвижении.

Crawl-delay

Указывает время в секундах, через которое необходимо приступить к загрузке следующей страницы.

Host

Указывает на домен с протоколом и портами. Указывайте нужный протокол – HTTP или HTTPS. Если порт не отличается от стандартного, то его не нужно указывать.

Отметим, что Яндекс отказался от этой директивы и заменил ее 301 редиректом. Однако веб-мастера не торопятся удалять Host из файла, поскольку работе поисковых роботов это не мешает.


Синтаксис и примеры

Помимо директив, чтобы правильно настроить robots.txt, нужно соблюдать правила синтаксиса.

Разберем на примерах.

  1. Указания чувствительны к регистру. Пример: http://site-example.ru/file.html и http://site-example.ru/File.html — это разные пути.

  2. Для кириллических адресов используйте Punycode.

    #НЕВЕРНО
    Disallow: /корзина

    #ВЕРНО:
    Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

  3. Для комментирования используйте #. Как в предыдущем пункте.

  4. Хотя бы одна Allow или Disallow должна быть в группе. Пример:

    #Блокировка доступа ко всему ресурсу определенному боту
    User-agent: Googlebot #сюда указывается токен бота
    Disallow: /

    #Блокировка доступа ко всему ресурсу всем ботам
    User-agent: * #звездочка означает «любой бот»
    Disallow: /

  5. Обязательно указывайте Sitemap. Хоть эта директива необязательна, мы советуем ее указывать, поскольку адрес может отличаться от стандартного и боты могут ее не найти. Пример:

    User-agent: *
    Allow: /
    Sitemap: https://site-example.ru/sitemap.xml

  6. Для переноса строки используйте знак $. Пример:

    User-agent: *
    Disallow: https://site-example.ru/здесь-будет-очень-длинный-$
    адрес-сайта
    Sitemap: https://site-example.ru/sitemap.xml
    Host: https://site-example.ru

  7. Можно запретить доступ к отдельному файлу, странице или категории. Пример:

    User-agent: *
    Disallow: /page-example.html #не нужно указывать весь путь ресурса
    Disallow: /images/image-example.png #любой файл: картинка, документ, все что угодно
    Disallow: /*.js$ #запретить определенный тип файла
    Disallow: /category-example/
    Allow: /category-example/subcategory-example/ #прошлой строкой запретили раздел и его последующие подкатегории и файлы, но далее можно разрешить сканировать другой раздел

Не бойтесь совершить ошибку — файлы robots. txt можно проверить на валидность с помощью специальных сервисов.

Проверка robots.txt на валидность

Чтобы убедиться в правильности составления файла robots.txt воспользуйтесь инструментами проверки от поисковых систем:

  1. Проверка в Google Search Console. Нужно авторизоваться в аккаунте с подтвержденными правами на сайт. Далее перейти в «Сканирование», а затем в «Инструмент проверки файла robots.txt». Проверить можно только сайт, в котором вы авторизовались.
  2. Проверка в инструменте Яндекса. Авторизация не нужна, просто укажите адрес сайта или загрузите исходный код файла. Проверить можно любой сайт.

В сервисах проверки можно загрузить несколько страниц одновременно, увидеть все ошибки, исправить их прямо в инструменте и перенести готовый файл на сайт.

что такое продвижение сайта в поисковой системе?

SEO-продвижение — вечная тема, которая заслуженно будоражит умы владельцев и администраторов сайтов. Сегодня в нашем блоге о базе и азах. SEO-специалист REG.RU Максим Ткач расскажет что такое SEO, какие есть виды продвижения сайта и методы оптимизации.

Что такое SEO?

SEO (Search Engine Optimization — оптимизация под поисковые системы) — это набор методов и мер, которые призваны повысить значимость сайта в глазах поисковых систем для увеличения поискового трафика. Простыми словами — это некий набор задач, выполнив которые, ваш сайт получит большую вероятность попасть в ТОП-10 выдачи поисковых систем, а значит приводить больше пользователей.

Стоит учесть, что на сегодняшний день для эффективного SEO-продвижения сайта недостаточно просто выполнить ряд задач: такой простой и волшебной пошаговой инструкции просто не существует. Это скорее сложная и комплексная работа. Так, для успешного продвижения ваш интернет-сайт должен отвечать ряду параметров:

  1. Качество контента. Все материалы (тексты, изображения, видео и т. д.) должны быть хорошо подготовлены и полностью отвечать запросу пользователя.
  2. Проработанная структура сайта. Он должен быть удобным для клиента, пользователь должен иметь возможность быстро найти нужную ему информацию.
  3. Коммерческие факторы. Если это коммерческий сайт, обязательно должны присутствовать такие элементы как:
    1. номер телефона
    2. форма заказа (при наличии у конкурентов)
    3. корзина (при наличии у конкурентов)
    4. фильтрация (при наличии у конкурентов)
    5. контакты
    6. остальные элементы, которые помогают пользователю определиться с выбором товара или услуги
  4. Узнаваемость бренда и ссылочная масса. Здесь действует простое правило: «чем больше вас знают, тем больше о вас говорят», а в глазах поисковых систем это звучит как: «чем больше вас знают, тем больше на вас ставят ссылок». 
  5. Скорость загрузки сайта. В последнее время это становится всё больше значимым фактором из-за роста популярности мобильных устройств и мобильного интернета. Важно следить за оптимизацией кода и скриптов для более быстрой загрузки сайта. Особое внимание стоит уделить отображению на мобильных устройствах.
  6. Поведенческие факторы — один из главных факторов ранжирования на текущий момент. Мы уже писали подробно о том, что такое поведенческие факторы и внешние поведенческие факторы ранжирования. 

В двух словах — это показатель качества ресурса в глазах поисковых систем. На успешность SEO-раскрутки влияют множество параметров:

  • Время, проведённое на сайте
  • Глубина просмотра страниц
  • Показатель отказов
  • Dwell-time 

и так далее.

Важно понимать, что методы поискового продвижения сайта постоянно меняются и совершенствуются. Поэтому то, что работало вчера, может не работать завтра и наоборот. Давайте погрузимся в основные периоды развития поисковых алгоритмов. Это поможет понять принцип продвижения в целом.

Зарождение. Зачем нужно SEO?

Одновременно с появлением поисковых систем в далёких 90-х годах, многие пользователи поняли, что нужно изучать алгоритмы поисковых систем, чтобы с лёгкостью добывать трафик и клиентов в Интернете. В то время пришло понимание зачем нужно SEO и появилась такая профессия как «SEO-специалист» — это были люди, которые профессионально занимались SEO-продвижением сайтов. В этот период, в основном, достаточно было заспамить ключевыми словами текст, чтобы находиться на высоких позициях. Результаты поиска были ужасными и не удовлетворяли ни пользователей, ни поисковые системы.

Эра ссылок

В 1998 году поисковой системой Google был представлен алгоритм PageRank, которые совершил революцию в сфере ранжирования. Вслед за Google, Яндекс внедрил свой алгоритм ТИЦ в 1999 году. Оба алгоритма были похожими и основывались на ссылочном весе. Каждая страница и домен получали свой ссылочный вес, в зависимости от количества и качества ссылок, которые были проставлены на них и передавали вес дальше исходящим ссылкам с их домена. Для примерного представления публикуем картинку:

Одновременно с этим, SEO-бизнес набирает всё большие обороты — оптимизаторы начинают пачками делать сайты для продажи ссылок и ссылочный бизнес в итоге приводит к большой зашумлённости данного фактора ранжирования.

Машинное обучение

Этот период в Рунете принято считать с 2009 года, одновременно с выходом Матрикснет. Это такой алгоритм машинного обучения, который сам строил формулу ранжирования и был разработан поисковой системой Яндекс.

«Бессылочная эра»

С 2012 года поисковые системы начали жёсткую борьбу со ссылочным спамом. Началось всё с внедрения алгоритма «Пингвин» от Google в 2012 году. Далее в 2014 году Яндекс заявил, что полностью отключил влияние ссылочного на формулу ранжирования, а в 2015 году выпустил фильтр «Минусинск», который наказывал  за ссылочный спам.

Современное SEO

Примерно после 2015 года к оптимизаторам пришло понимание, что правила игры сильно изменились. На сегодняшний день декларируется больше 800 факторов, которые участвуют в формуле ранжирования. Единственный метод на сегодня продвинуться в ТОП-10 выдачи — это системная и комплексная работа над сайтом.

SEO-продвижение сайтов что же это такое и какие бывают виды?

Как мы уже говорили раньше, SEO-продвижение — целый комплекс мер, с которыми нужна системная работа — начиная от работы над контентом, заканчивая наращиванием ссылочной массы. Но условно все работы можно разделить на 2 типа:

  • внутренняя оптимизация
  • внешняя оптимизация

Остановимся на каждом типе подробнее.

Внутренняя оптимизация сайта

Это весь комплекс мер, которые вы применяете непосредственно к своему сайту, а не на внешних ресурсах. Вот несколько примеров таких задач:

  1. Составление семантического ядра (предварительный этап)
  2. Разработка файла robots.txt и sitemap.xml
  3. Правка технических ошибок
  4. Работы, связанные с оптимизацией на странице — написание текста, написание тегов Title и META. В мире SEO это называется «on-page оптимизацией» (оптимизацией «на странице»)
  5.  Улучшение структуры сайта
  6. Оптимизация изображений, видео
  7. Работы над перелинковкой
  8. Работа над коммерческими факторами
  9. Работа над поведенческими факторами

Нужно учитывать, что за всеми параметрами, перечисленными выше, нужно постоянно следить и исправлять. Опытные SEO-специалисты заводят для себя чек-листы и регулярно проверяют сайты по ним. В противном случае, вы можете упустить важную ошибку, которая приведёт к потере трафика.

Внешняя оптимизация сайта

Внешняя оптимизация —- наоборот, представляет собой комплекс мер, которые вы проводите на внешних ресурсах. Как правило — это работа со ссылочной массой и узнаваемостью бренда.

Для получение хорошей ссылочной массы актуально:

  1. Написание и публикация статей на внешних авторитетных ресурсах
  2. Размещение пресс-релизов
  3. Обмен ссылками с авторитетными ресурсами
  4. Активный постинг на профильных ресурсах
  5. Работа с журналистами
  6. Повышение узнаваемости названия бренда, без проставления ссылок

Методы SEO-оптимизации

Как вы понимаете, в любом бизнесе, наряду с легальными методами, могут появляться не совсем законные или вообще запрещённые. И SEO не исключение. Здесь выделяют следующие методы:

Белая оптимизация

Полностью законный метод, в котором работы направлены на повышение качества сайта с помощью улучшения всех, вышеуказанных параметров. Это огромный труд, который иногда требует множества знаний, но результат стоит того.

Серая оптимизация

Набор методов, которые, хотя напрямую и не запрещены поисковыми системами, но все же находятся где-то «на грани» дозволенного. За использование таких методов можно попасть под фильтр.

Чёрная оптимизация или “black-hat SEO”

Использование методов, которые запрещены правилами поисковых систем. Рано или поздно сайт попадает под фильтр или бан. К таким методам относят, например, дорвеи.

Заключение

Итак, мы попробовали разобраться что же такое SEO-оптимизация сайта и зачем она нужна. Но все же, у вас наверное, остались вопросы «С чего начать продвижение «молодого сайта» (например, лендинга) самому?». Вот перечень шагов, с которых нужно начать (подробно о каждом из них мы расскажем в следующих материалах):

  1. Анализ конкурентов. Важный этап, на котором вы определитесь с вопросом стоит ли вообще делать сайт на эту тематику.
  2. Сбор семантического ядра. Ваш будущий сайт должен полностью охватывать всю тематику.
  3. Кластеризация семантического ядра и разработка структуры сайта. Часто кластеризацию игнорируют на этапе разработки сайта, что приводит потом к множеству переделок.
  4. Исправление технических ошибок, составление грамотного robots.txt, мониторинг состояния сайта. 
  5. Подготовка текста на основе семантического ядра, подбор качественного фото- и видеоконтента. 
  6. Проработка коммерческих факторов — крайне важно предоставить пользователю функционал быстрой покупки или связи с вами
  7. Анализ и улучшение поведения пользователей. Устранение сложностей.

⌘⌘⌘

Будем рады вашим комментариям и вопросам. В следующем материале на тему SEO мы расскажем с чего начать базовую оптимизацию сайта. Оставайтесь с нами! 

как правильный robots.txt сайт из Google удалил — SEO на vc.ru

Таки-здрасьте!

{«id»:151384,»url»:»https:\/\/vc. ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil»,»title»:»\u041a\u0435\u0439\u0441: \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 robots.txt \u0441\u0430\u0439\u0442 \u0438\u0437 Google \u0443\u0434\u0430\u043b\u0438\u043b»,»services»:{«facebook»:{«url»:»https:\/\/www.facebook.com\/sharer\/sharer.php?u=https:\/\/vc.ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil»,»short_name»:»FB»,»title»:»Facebook»,»width»:600,»height»:450},»vkontakte»:{«url»:»https:\/\/vk.com\/share.php?url=https:\/\/vc.ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil&title=\u041a\u0435\u0439\u0441: \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 robots.txt \u0441\u0430\u0439\u0442 \u0438\u0437 Google \u0443\u0434\u0430\u043b\u0438\u043b»,»short_name»:»VK»,»title»:»\u0412\u041a\u043e\u043d\u0442\u0430\u043a\u0442\u0435″,»width»:600,»height»:450},»twitter»:{«url»:»https:\/\/twitter.com\/intent\/tweet?url=https:\/\/vc. ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil&text=\u041a\u0435\u0439\u0441: \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 robots.txt \u0441\u0430\u0439\u0442 \u0438\u0437 Google \u0443\u0434\u0430\u043b\u0438\u043b»,»short_name»:»TW»,»title»:»Twitter»,»width»:600,»height»:450},»telegram»:{«url»:»tg:\/\/msg_url?url=https:\/\/vc.ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil&text=\u041a\u0435\u0439\u0441: \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 robots.txt \u0441\u0430\u0439\u0442 \u0438\u0437 Google \u0443\u0434\u0430\u043b\u0438\u043b»,»short_name»:»TG»,»title»:»Telegram»,»width»:600,»height»:450},»odnoklassniki»:{«url»:»http:\/\/connect.ok.ru\/dk?st.cmd=WidgetSharePreview&service=odnoklassniki&st.shareUrl=https:\/\/vc.ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil»,»short_name»:»OK»,»title»:»\u041e\u0434\u043d\u043e\u043a\u043b\u0430\u0441\u0441\u043d\u0438\u043a\u0438″,»width»:600,»height»:450},»email»:{«url»:»mailto:?subject=\u041a\u0435\u0439\u0441: \u043a\u0430\u043a \u043f\u0440\u0430\u0432\u0438\u043b\u044c\u043d\u044b\u0439 robots. txt \u0441\u0430\u0439\u0442 \u0438\u0437 Google \u0443\u0434\u0430\u043b\u0438\u043b&body=https:\/\/vc.ru\/seo\/151384-keys-kak-pravilnyy-robots-txt-sayt-iz-google-udalil»,»short_name»:»Email»,»title»:»\u041e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043d\u0430 \u043f\u043e\u0447\u0442\u0443″,»width»:600,»height»:450}},»isFavorited»:false}

4732 просмотров

Пишу тут пост впервые, так что пинайте как можно сильнее и сопровождайте пинки как можно более сильными криками.

В данном посте я расскажу о том, как robots.txt, который на первый взгляд составлен правильно, полностью выбил сайт из поисковой системы Google.

Дано.
Сайт по велотуризму. Клиент у нас совсем недавно, поэтому на сайте пока что всё плохо. Клиент пожаловался, что сайт полностью вылетел из поисковой выдачи Google. Также заказчик сказал, что кто-то из его программистов что-то делал с robots.txt. ОК, будем посмотреть.

Задача.
Вернуть сайт обратно в Google. Не обязательно в ТОП, достаточно чтобы он просто индексировался.

Что было сделано.
Самое первое, что я сделал — глянул текущий robots. На момент вмешательства он выглядел вот так (версия от 11 августа):

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest. xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Sitemap: https://velotour-asia.ru/sitemap_index.xml

Как видите, никаких правил, которые запрещают индексирвание всего сайта ( или, скажем, главной страницы) тут нету. Подозрительно, однако!

OK, Google, расскажи же, что не так! Идём в Search Console и пытаемся разобраться. И «от оно чо, Михалыч!» Противоречие однако!

Обратите внимание, что попытка сканирования была 19го числа, т. е. спустя несколько дней после последнего редактирования robots’а. Эй, какого яруса?! Роботс, вроде, в порядке, но Google на него ругается. Как так-то?

{«url»:»https:\/\/booster.osnova.io\/a\/relevant?site=vc»,»place»:»between_entry_blocks»,»site»:»vc»,»settings»:{«modes»:{«externalLink»:{«buttonLabels»:[«\u0423\u0437\u043d\u0430\u0442\u044c»,»\u0427\u0438\u0442\u0430\u0442\u044c»,»\u041d\u0430\u0447\u0430\u0442\u044c»,»\u0417\u0430\u043a\u0430\u0437\u0430\u0442\u044c»,»\u041a\u0443\u043f\u0438\u0442\u044c»,»\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c»,»\u0421\u043a\u0430\u0447\u0430\u0442\u044c»,»\u041f\u0435\u0440\u0435\u0439\u0442\u0438″]}},»deviceList»:{«desktop»:»\u0414\u0435\u0441\u043a\u0442\u043e\u043f»,»smartphone»:»\u0421\u043c\u0430\u0440\u0442\u0444\u043e\u043d\u044b»,»tablet»:»\u041f\u043b\u0430\u043d\u0448\u0435\u0442\u044b»}},»isModerator»:false}

В коде страницы я никаких noindex’ов тоже не нашел, т. е. вариант с тегами отпадает.

Далее я просканировал сайт Screaming Frog’ом, предварительно выставив в настройках смартфонный гуглбот (именно смартфонный, т.к. Николай Васильевич Гуголь сканировал сайт именно им). Также в настройках было выставлено Respect robots, чтобы содержимое robots.txt не игнорировалось.

Как видите, все строки (кроме первой) отдают код 200 ОК и имеют статус Indexable. Т.е. со сканированием Фрог проблем не выявил. Странно.

ОК, тогда воспользуемся штатным инструментом Google для проверки robots.txt. Самое первое, что бросилось в глаза — все строки были помечены как ошибочные.

Всё страннее и страннее… Томить не буду. Проблему я, кстати, заметил далеко не сразу. Всё внимание на первую строку роботса:

Что это за символ — не понятно. Удаляем и…

… и все 26 ошибок исчезли. Далее я напрямую из Консоли скачал исправленный роботс, затем скачал с сайта исходный и стал сравнивать.

Если их просто открыть в блокноте, то они выглядят абсолютно идентично. Как говорится, «найдите 10 отличий». Если вместо Блокнота открывать через Notepad++ — будет то же самое.

Однако, размер файлов отличается, пусть даже всего на 3 байта:

Вот блин просто охренеть! Всего 1 символ, который не отображается ни в браузере, ни в блокноте, ни в Notepad++, и сайт вылетел из индекса Google! Как тебе такое, Илон Маск?

Robots.txt — инструкция для SEO

Файл robots.txt предоставляет важную информацию для поисковых роботов, которые сканируют интернет. Перед тем как пройтись по страницам вашего сайта, поисковые роботы проверяют данный файл.

Это позволят им с большей эффективностью сканировать сайт, так как вы помогаете роботам сразу приступать к индексации действительно важной информации на вашем сайте (это при условии, что вы правильно настроили robots. txt).

Но, как директивы в robots.txt, так и инструкция noindex в мета-теге robots являются лишь рекомендацией для роботов, поэтому они не гарантируют что закрытые страницы не будут проиндексированы и не будут добавлены в индекс.

Если вам нужно действительно закрыть часть сайта от индексации, то, например, можно дополнительно воспользоваться закрытие директорий паролем.

Основной синтаксис

User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)

Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).

Символ хэш (#) может быть использован для комментариев в файле robots. txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.

Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.

Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.

Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.

Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа

  • * (звездочка) – означает любую последовательность символов
  • $ (знак доллара) – обозначает конец строки

Основные примеры использования robots. txt

Запрет на индексацию всего сайта

User-agent: *

Disallow: /

Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.

Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.

А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:

User-agent: *

Disallow:

Запрет на индексацию определённой папки

User-agent: Googlebot

Disallow: /no-index/

Запрет на посещение страницы для определенного робота

User-agent: Googlebot

Disallow: /no-index/this-page.html

Запрет на индексацию файлов определенного типа

User-agent: *

Disallow: /*.pdf$

Разрешить определенному поисковому роботу посещать определенную страницу

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page. html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Ссылка на Sitemap

User-agent: *

Disallow:

Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то

  • лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,
  • саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap.xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),

так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.

Статья в тему: Создаем sitemap для Google и Яндекс

Что лучше использовать robots.txt или noindex?

Если вы хотите, чтобы страница не попала в индекс, то лучше использовать noindex в мета-теге robots. Для этого на странице в секции <head> необходимо добавить следующий метатег:

<meta name=”robots” content=”noindex, follow”>.

Это позволит вам

  • убрать из индекса страницу при следующем посещение поискового робота (и не надо будет делать в ручном режиме удаление данной страницы, через вебмастерс)
  • позволит вам передать ссылочный вес страницы

Через robots.txt лучше всего закрывать от индексации:

  • админку сайта
  • результаты поиска по сайту
  • страницы регистрации/авторизации/восстановление пароля

Как и чем проверить файл robots.txt?

После того, как вы окончательно сформировали файл robots.txt необходимо проверить его на ошибки. Для этого можно воспользоваться инструментами проверки от поисковых систем:

Google Вебмастерс: войти в аккаунт с подтверждённым в нём текущим сайтом, перейти на Сканирование -> Инструмент проверки файла robots.txt.

В данном инструменте вы можете:

  • сразу увидеть все свои ошибки и возможные проблемы,
  • прямо в этом инструменте провести все правки и сразу проверить на ошибки, чтобы потом уже перенести готовый файл себе на сайт,
  • проверить правильно ли вы закрыли все не нужные для индексации страницы и открыты ли все нужные страницы.

Яндекс Вебмастер: чтобы воспользоваться данным инструментом просто перейдите по этой ссылке http://webmaster.yandex.ru/robots.xml.

Этот инструмент почти аналогичный предыдущему с тем небольшим отличием, что:

  • тут можно не авторизоваться и нет необходимости в подтверждении прав на сайт, а поэтому, можно сразу приступать к проверке вашего файла robots.txt,
  • для проверки сразу можно задать список страниц, а не вбивать их по одному,
  • точно убедиться, что Яндекс правильно понял ваши инструкции.

В заключение

Создание и настройка robots.txt является в списке первых пунктов по внутренней оптимизации сайта и началом поискового продвижения.

Важно его настроить грамотно, чтобы нужные страницы и разделы были доступны к индексации поисковых систем. А не нужные были закрыты.

Но главное помнить, что robots.txt не гарантирует того, что страницы не будут проиндексированы. Как когда-то сказала наша коллега Анастасия Пареха:

Robots. txt — как презерватив, вроде защищает, но вероятность всегда есть)

Хорошие статьи в продолжение:

— 301 редирект – самое полное руководство

— Пагинация для SEO – пошаговое руководство

— Ответы сервера – практичная методичка

А что вы думаете про настройку robots.txt на сайте?

Оцените статью

Загрузка…

SEO продвижение сайта — что это и с чего начать оптимизацию

В интернете сегодняшнего дня обойти конкурентов и выйти в ТОП поисковиков без продвижения практически нереально. Эта статья будет вам мегаполезна, даже если вы не собираетесь сами продвигать свой ресурс. Вы сможете понимать, для чего нужно SEO-продвижение сайтов, что делают специалисты по продвижению, говорить с ними на одном языке, анализировать отчеты и оценивать объем проведенных работ.

SEO-продвижение — что это? Еще его называют «поисковая оптимизация» — это целый комплекс мероприятий, который направлен на то, чтобы ваш сайт отображался как можно выше в выдаче поискового запроса, а значит — привлекал больше пользователей. Но “попасть в ТОП-10 или в ТОП-5” — это неправильно сформулированная цель, потому что борьба идет в конечном итоге не за место в выдаче, а за покупателя. Что толку, если потенциальный клиент закроет страницу через минуту, наткнувшись на бесполезный контент, мелкий шрифт на вырвиглазном цвете или жуткое меню? Поэтому умное SEO заботится не только о количестве, но и о качестве трафика. Мы по шагам разберем, как привести ваш сайт к благосклонности поисковиков и клиентов и ответим на вопрос, что это за зверь — SEO-продвижение сайта.

7 необходимых пунктов для работы SEO

Итак, SEO-продвижение — с чего начать? Чтобы оптимизация работала, должны быть выполнены эти 7 пунктов:

  • Быстрая загрузка и Mobile First. Скорость жизни слишком высокая, чтобы тратить время на медленно загружающийся сайт — вряд ли он единственный в своем роде. Долгая загрузка отталкивает большое количество потенциальных клиентов. Мобильная адаптация тоже крайне важна — 61% пользователей интернета пользуется поиском со смартфонов периодически, а более трети от всего количества вообще заходят в сеть исключительно с мобильных устройств. Вряд ли они будут разбираться в неадаптированной версии и скроллить экран на все четыре стороны. Потому это важно для SEO-оптимизации и продвижения сайтов. Даже поисковики предоставляют технологии для быстрой мобильной загрузки (AMP от Google, Турбо от Яндекс). Люди активно пользуются голосовым поиском, а в выдаче можно видеть быстрые ответы, результаты соревнований и чат с компанией, избавляющий от необходимости перехода на сайт. Поисковики постоянно совершенствуются, каждый год появляются сотни изменений.
  • Высокая ценность контента. Сейчас уже нельзя взять и просто написать “Хаски купить щенка северные ездовые собаки, выведенные чукчами в Северо-Восточной части Сибири…” Это прямой путь под фильтр Яндекса Баден-Баден. Ключи должны быть вживлены незаметно для читателя, чтобы не раздражать глаз, а сам текст структурирован — сплошной набор слов мало кто захочет осиливать. Что касается длины — это зависит от страницы. Лонгриду в категории товаров явно нечего делать, а вот в блоге он уместен и полезен для перелинковки. Гайды, обзоры, экспертные статьи делают сайт интересным. Кроме того, контент — не только текст. Картинки, видео, интерактивные вставки — все это удерживает читателя на странице подольше.

  • Входная аналитика и анализ конкурентов. Подобный мониторинг не прекращается. Придумать, чем удержать пользователя, и убедить его купить товар или услугу именно у вас — задача не из простых. У конкурентов можно как взять интересные идеи и адаптировать под свой ресурс, так и увидеть ошибки — на чужих учиться всегда приятнее.
  • Бесконечный цикл улучшений. Этот пункт вытекает из предыдущего. Правило “работает — не трогай” к SEO-продвижению не относится. Низкочастотные и высокочастотные ключи влияют друг на друга, поэтому важно иметь представление о всей комплексной картине. Зачастую низкочастотный ключ приведет теплую аудиторию, готовую к покупке, а по жирному ключевику придут люди, для которых это будет первое касание с продуктом. Купят же они его через полгода и, возможно, не у вас.
  • Техническая безупречность. Даже если у вас супер контент, половина пользователей могут просто не дойти до сайта из-за технических ошибок. Их нужно искоренять, особенно учитывая то, что технический аудит — это самое простое, что можно сделать для продвижения ресурса.
  • Интеграция с соцсетями. Практически каждый пользователь интернета зарегистрирован хотя бы в одной соцсети. Взаимосвязь поискового продвижения и SMM — тема для отдельной статьи, но она намного сильнее, чем кажется.
  • Релевантность. Перейдя на страницу,человек должен получить ответ на свой запрос. Если он пришел по запросу “кирпич цена”, он должен увидеть цену кирпича, а не прочитать о его преимуществах, способах изготовления и три абзаца с содержанием типа “ Мы продаем кирпич, цена которого недорогая”. Посмотрите на сайт глазами клиента и подумайте, устроит его ваш ответ или нет.

Для всех согласований важно выбрать одного человека, с которым будет прямая связь. Если текст будет неделями согласовывать совет директоров из 15 человек, или до генерального директора его будут нести по очереди десять секретарш — шансы на успех стремятся к нулю.

Самые важные вещи нужно делать быстро, и не беда если будут какие-то незначительные несовершенства — лучше их исправить, чем вообще ничего не сделать. Будьте готовы к неожиданностям — что сыграло в продвижении одного сайта, совсем не обязательно окажется рабочим для другого. Поэтому больше индивидуальности, меньше типизации.

Техническая оптимизация

Если вы теряетесь, с чего начать SEO-продвижение сайта, то первым делом обратите внимание на его техническое состояние, т. к. это самые простые работы. При этом, они могут существенно понижать страницу в выдаче. Технические ошибки могут быть незаметны для людей, пришедших на сайт. Но поисковики, несмотря на все стремления их “очеловечить” — роботы. Они проверяют все параметры, и какие-то недочеты могут повлиять на трафик. Куда ошибки закрадываются чаще всего?

Индексация страниц, дубли

У любого продвигаемого сайта должен быть файлик robots.txt, который находится по адресу имясайта.ru/robots.txt. В нем прячутся дубли страниц, которые генерируют CMS и в частности, Битрикс. Такие страницы имеют одинаковое содержимое, мета-теги и снижают позиции сайта в выдаче. Для проверки дублей есть разные сервисы.

Бесплатные:

  • “SiteAnalyzer” от Majento;
  • Xenu

Платные:

  • ComparseR;
  • Serpstat;
  • Semrush;
  • Se Ranking и другие.

Если дубли нашлись, их нужно спрятать от индексации с помощью директивы Disаllow, а те страницы, которые поисковик должен посещать отображает директива Allow. Подробнее о синтаксисе и правилах оформления robots. txt в справках https://support.google.com/webmasters/answer/6062596?hl=ru&ref_topic=6061961, https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html.

Sitemap.xml

Так как оптимизация идет постоянно, этот файл тоже нужно периодически проверять. В нем содержится “карта сайта” для поисковиков, благодаря чему он быстро понимает, какие страницы содержит ресурс. Sitemap.xml не должен противоречить robots.txt.

Скорость загрузки

Медленные страницы никто не любит. Максимально допустимое время загрузки 6 секунд, но рекомендуемое — не более 3. Эти сервисы проверят показатель скорости и дадут рекомендации по улучшению:

  • Google pagespeed insights;
  • GTmetrix;
  • WebPagetest.

Также на отказы и возврат в результаты выдачи влияют всплывающие окна.

Ошибка 404

Если страница не существует, но при этом отдает 200 код ответа серверу — она индексируется поисковиком, который считает ее дублем. Если все сделано правильно, то такая страница:

  • отдает код ответа серверу 404;
  • оповещает, что такой страницы не существует, либо она устарела;
  • оформлена в общем стиле сайта;
  • имеет поиск по сайту и ссылки на основные категории.

Найти такие страницы поможет уже упомянутый ComparseR.

Стоит проверить и прочие заголовки серверов. Все рабочие страницы отдают ответ 200, в другие ответы требуют анализа и исправления.

Семантический URL

Такой URL отражает файловую структуру сайта в понятных человеку словах. Они повышают удобство страницы и позволяют догадаться о ее содержимом. Для наглядности приведем пример:

Непонятно Понятно
https://ru.wikipedia.org/wiki/%D0%A1
%D0%B5%D0%BC%D0%B0%D0%
BD%D1%82%D0%B8%D1%87%D0%
B5%D1%81%D0%BA%D0%B8%D0%B9_URL
https://ru.wikipedia.org/wiki/Семантический_URL

Склейка зеркал

Для человека без разницы, что вводить в поисковую строку: имя сайта с www или без, с http или https. Но поисковик считает, что это 4 разных сайта, поэтому нужно выбрать основной домен и склеить все редиректы, чтобы система не посчитала их дублями.

https имеет плюс в ранжировании Google, поэтому имеет смысл сделать его основным доменом. Этот протокол соединения защищен, SSL сертификат не дает злоумышленникам получить личные данные пользователей — реальные имена, банковские данные, телефоны, поэтому https имеет весомые преимущества.

Кроссбраузерность и оптимизация под мобильные устройства

Сайт должен одинаково приятно выглядеть с любого устройства и на экране любого формата. Mobile First предполагает, что пользователь всегда должен видеть в первую очередь самое главное, а любая дополнительная информация появляется только по требованию пользователя. Кроме того, сайт должен быть легковесным, чтобы загружаться с приемлемой скоростью даже на устройствах с медленным интернетом.

Реализовать это можно с помощью адаптивной верстки, мобильного шаблона или мобильной версии на своем поддомене. Огромную помощь в оптимизации под смартфоны оказывают плагины на конструкторах.

Внутренняя оптимизация

Внутренняя оптимизация включает все то, что относится к семантике, контенту и юзабилити сайта. Чтобы провести ее, нужно собрать семантическое ядро, написать мета-теги, привести в чувство контент и оптимизировать коммерческие составляющие для продающих ресурсов.

Сбор семантического ядра

Семантическое ядро — это три кита, на которых стоит сайт. По-хорошему, оно должно собираться на стадии написания, тогда можно грамотно продумать навигацию и внутреннюю структуру. Но это сценарий для идеального сайта в вакууме, а в реальности чаще ядро собирается уже для готового ресурса, и под него корректируется структура.

Первейший инструмент для того, чтоб собрать запросы пользователей поисковику — это https://wordstat.yandex.ru/. Вам нужно только выбрать свой регион и ввести запрос по теме сайта в поисковую строку.

Wordstat выдает число, сколько раз запрос набирали в Яндексе. Но это — все запросы, в составе которых были нужные слова. Чтобы узнать насколько популярно конкретное словосочетание — проставьте восклицательный знак перед каждой словарной единицей, а весь запрос заключите в кавычки-лапки.

Сбор СЯ — один из самых важных этапов, что входят в SEO-продвижение сайта. Ведь от того, насколько эффективно вы подберете ключевики будет зависеть количество потенциальных клиентов, которые придут по ним. Кроме Wordstat для сбора семантики можно пользоваться и другими платными и бесплатными сервисами.

Бесплатные:

  • Google Keyword Planner — гугловский аналог, он менее удобен, но иногда может помочь собрать ключи, которые отсутствуют в вордстате.
  • Slovoeb — отличный парсер ключей из Wordstat с загадочным названием.
  • Букварикс — ищет ключевики конкурентов, по которым те ранжируются. Есть свободная версия, но все основные плюшки, конечно, в платной.

Платных намного больше:

  • Serpstat и Semrush — два похожих сервиса SEO-оптимизации. Последний лучше использовать, если нужно продвигать сайт за рубежом, в Google.
  • Мутаген — не только собирает ключи, но и определяет их конкурентность.
  • Moab Tools — технически простой сервис, позволяющий за короткое время собрать много запросов.
  • Key Collector — крутая платная платформа, которая собирает ключи со всех значительных сервисов, наших и иностранных, в том числе и с вышеперечисленных.

Собрать ключи — половина дела, после этого нужно выкинуть лишние, которые по-любому там будут. Все запросы, которые не относятся к сайту, в семантическом ядре находиться не должны. Возвращаясь к кирпичам — если вы продвигаете производителя кирпичей, то поклонники одноименной группы — не ваша целевая аудитория.

Кластеризация

Когда все ключи собраны, их нужно сгруппировать. Процесс кластеризации призван превратить хаос из сотен поисковых запросов в единую упорядоченную структуру. В прошлом все это проводилось вручную и могло занимать не один месяц, а сейчас с помощью специальных сервисов на все про все уходит пара часов:

  • SEMparcer;
  • KeyAssort;
  • Rush Analytics.

Что случится, если кластеризацию не делать? Создаются дубли в результате каннибализации, лишний контент, и теряются позиции в выдаче.

Мета-теги

Правильные мета-теги привлекут внимание пользователей к вашему ресурсу и повлияют на такой показатель, как кликабельность. Сниппет имеет 2 части: title и description. Title — это заголовок страницы, который отображается поисковой выдаче. Хороший title включает в себя наиболее высокочастотный ключ, возможно два, и УТП, причем все это нужно уложить в 70 символов. Конечно, можно выходить за эти пределы, но тогда title будет показываться не полностью, поэтому высокочастотный запрос должен идти вначале, чтобы он был виден.

Description — это более длинное описание страницы, из которой человек может понять, чем она полезна. В него входят менее частотные ключи, которые не употреблялись в title, соответственно, они отличаются друг от друга. Длина description на сто символов больше — 160-170.

Мета-тег keywords сейчас многие вообще не заполняют, потому что влияния на продвижение он практически не оказывает. Но лучше забить туда пару ключевиков.

При быстрой оптимизации не нужно искать неординарные запросы, особенно, если подобных страниц много, на первое время подойдут и шаблоны — а при желании их всегда можно будет оптимизировать в будущем.

Кликабельность

CTR — та самая кликабельность — это формула соотношения кликов пользователей к показам в выдаче. Чем больше кликают — тем выше страница. Все просто? Не настолько. Это работает при условии того, что страница релевантна запросу. Если же она ему не отвечает — пользователь закроет сайт практически сразу, увеличив количество отказов. CTR отображается в Яндекс.Вебмастер и Google Search Console.

Оптимизация текстового контента

Текст на посадочной странице должен соответствовать запросу пользователя в поисковой строке. Для этого в нем используются ключевые фразы и слова, в том числе те, которые уже привлекли внимание человека в title и description. Тут есть другая сторона — опасность переоптимизации, которая заведет страницу под фильтр. Чтобы такого не случилось, нужно соблюдать частоту употребления ключа — не более 4%, в идеале 2-3%. Проверить этот показатель можно на сервисах https://advego.com/text/seo/ , https://istio.com/ , https://miratext.ru/seo_analiz_text. Кроме него, вы получите данные о тошнотности, водности текста и других SEO-данных.

Общий риск попадания страницы под фильтр Баден-Баден можно оценить на сервисе https://turgenev.ashmanov.com/. К сожалению, с декабря 2019 года за проверки нужно платить деньги, бесплатной осталась только вкладка “Стилистика”. Но 200 проверок на месяц стоят 200 р., а без подписки текст до 20 тысяч символов обойдется всего в 5 р.

Что требуется от привлекательного текста?

  • Уникальность. Поисковики любят тексты с высокой уникальностью, от 90%. Проверить ее можно на таких ресурсах как https://text.ru/, https://content-watch.ru/ (3 бесплатных проверки в сутки), с помощью программы Advego Plagiatus. К сожалению, этот показатель не является постоянной величиной, стоит кому-то скопировать и выложить ваш текст на другом ресурсе, да хотя бы цитату — уникальность неудержимо падает. Его можно отрерайтить и уникализировать, но учтите, что постоянное обновление статей на сайте и отсутствие технических ошибок важнее.
  • Структура. Длинные “простыни” без абзацев и подзаголовков практически никто не читает. В тексте желательно использовать списки — помните, еще в школе таблицы и списки запоминались и воспринимались намного легче, чем пространный параграф.
  • Полезность и интересность.Тексты для поисковиков работали 10 лет назад, а сейчас все сильно завязано на поведенческих факторах, поэтому сайту надо постараться, чтобы удержать пользователя — заинтересовать статьей, и заставить полазить по сайту.
  • Содержание ключевиков.

Внешняя оптимизация

Здесь речь идет о ссылочной массе, что тоже входит в SEO-продвижение. Если сайт наполнен полезным и интересным контентом, то поисковики считают его авторитетным и надежным ресурсом и продвигают его вверх в выдаче. При этом важно какие именно сайты на него ссылаются — сомнительная ссылочная масса скорее сделает хуже для SEO-продвижения и оптимизации, так что это — именно тот случай, когда качество важнее количества.

Самый “правильный” путь — писать полезные статьи, наращивая авторитетность ресурса, чтобы люди забирали ссылки и размещали их у себя. Но это долгий путь. Какие есть варианты, чтобы нарастить ссылочную массу быстрее?

1.Купить. Для этого есть специальные биржи, где владельцы других ресурсов предлагают разместить у себя вашу ссылку за деньги. Поисковики это считают неправильным, отслеживают и наказывают.

2.Договориться напрямую. Такой способ затратнее и в плане ресурсов, и в плане финансов, но ссылочная масса получается более качественная.

3.Крауд-маркетинг. Размещать ссылки можно на сайтах вопросов-ответов, форумах, соцсетях. Но здесь есть свои нюансы. Такая ссылка должна размещаться на ресурсе с соответствующей тематикой и быть органично вписанной в комментарий. Размещать ссылку ради ссылки — это провал. Кроме того, после размещения нужно отслеживать чужие комментарии, и если будут задавать вопросы, отвечать на них. На многих форумах только что созданный пользователь не может вставлять ссылки, да и смотрится это странно. Есть платные сервисы крауд-маркетинга, а бесплатно такие задания часто можно встретить на биржах с широкой специализацией, например на work-zilla.com и подобных ей.

Прежде, чем заниматься линкбилдингом стоит проанализировать ваших конкурентов. Так вы узнаете:

  • какое количество ссылок у них всего, и сколько появляется ежемесячно;
  • какие источники на какие страницы ссылаются;
  • какие ссылки в каком процентном соотношении: анкорные или безанкорные.

Для этого можно воспользоваться уже упомянутым serpstat.com или другими ресурсами: https://ru.majestic.com/, https://ru.megaindex.com/, https://ahrefs.com/.

Коммерческие факторы ранжирования

Такие факторы в SEO влияют на позицию в выдаче тех ресурсов, которые продают товары или услуги. Вот основные данные, что нужны для SEO-продвижения и должны быть на сайте:

  • Контакты компании. Должны быть как минимум телефоны и адрес. Все что “сверху” — дополнительные контакты, схема проезда, адрес склада, только повышает уровень доверия поисковиков.
  • Отсутствие рекламы. Поисковики негативно относятся к рекламным баннерам, а всплывающие окна с рекламой увеличивают количество отказов пользователей. Вы что-то продаете? Вот этим и зарабатывайте.

  • Соцсети. Чем в большем количестве популярных соцсетей зарегистрирована компания, чем больше у нее подписчиков и чем “живее” группа — тем больше уважает сайт поисковик.
  • Широкий ассортимент. Понятно, что далеко не каждый сайт может предложить разнообразие товаров. Но тем не менее, те, у кого это получается, получают плюс к ранжированию.
  • Подробная карточка товара. Даже если товаров немного, карточка должна содержать максимум информации. Материал, размеры, цвет, фото, описание, отзывы, информация о наличии и доставке. Отдельным бонусом будут 3D-визуализаторы, калькуляторы, видео и прочий интерактив.
  • Доставка, разнообразие ее вариантов и возможность организовать в любую точку.

  • Возможность обращения клиента. На сайте должен быть раздел с помощью, часто задаваемыми вопросами, форма для общения с онлайн-консультантом.
  • Простой и запоминающийся домен, человекопонятный URL.
  • Релевантность. Сайт должен давать четкий и точный ответ на вопрос.
  • Локальная привязка. Если парикмахерская работает в Воронеже, она не должна показываться всей России. Для этого нужно назначить регион в Яндекс.Вебмастер или Яндекс.Справочник. В Google напрямую указать регион нельзя, но чтобы он мог определить его — можно писать город в мета-тегах, вписывать его в контент и добавить сайт в Google Мой бизнес.

Онлайн-школа

Запишитесь на курс по маркетингу от Аллы Штауб и вы узнаете:

  • Какие инструменты давно устарели и сжирают бюджет

  • Какие каналы рекламы являются топовыми в 2020 году

  • Как начать получать стабильно растущую прибыль

Часть пунктов из этого гайда не вызовет у вас затруднений, но некоторые требуют более глубокого погружения в тему SEO и ее изучения. Если вы думаете про поисковое продвижение SEO, что это не то, на что вы хотите тратить личное время, но вашему сайту требуется оптимизация — вы можете заказать в компании Dial комплексное продвижение и умную техническую поддержку.

Подпишитесь на наш блог

8 частых ошибок в robots.txt, о которых все забывают

Содержание:

Как обнаружить и исправить ошибки в файле robots.txt

Каждый уважающий себя веб-мастер должен иметь хотя бы общее представление о том, как управлять процессом индексации страниц и файлов сайта в поисковых системах.
Не будем тянуть резину и сразу отметим, что для нахождения общего языка с поисковыми роботами достаточно правильно настроить robots. txt. Ключевое слово – «правильно». Ведь если допустить в robots.txt ошибки, последствия могут быть довольно неприятными.

Самые частые ошибки файла robots.txt

  1. Перепутанные значения директив (по незнанию или по недосмотру).
  2. Перечисление нескольких URL в одной директиве Disallow.
  3. Название файла robots.txt с ошибками.
  4. В названии файла robots.txt присутствуют заглавные буквы.
  5. Пустое поле в User-agent.
  6. Отсутствующая директива Disallow.

  1. Неправильный формат URL в директиве Disallow.Ошибка в файле robots.txt на левой половине скриншота приведет к тому, что от индексации будут закрыты все страницы и файлы, в начале URL которых содержится «admin». Все будет указано правильно, если использовать символы «$» и «/» для указания «разрыва».
  1.  Перечисление всех файлов директории. В принципе это не совсем ошибка. Просто рациональнее в этом случае закрыть от индексации всю директорию целиком.

 


Принципы, которым нужно следовать, чтобы предотвратить ошибки в файле robots.txt
  1. Прописанные в robots.txt директивы являются рекомендациями, которых придерживаются лишь роботы крупных поисковых систем. Сторонние боты чаще всего на них внимания не обращают. Поэтому их лучше блокировать по IP.
     
  2. Заблокированные в robots.txt страницы все еще продолжают быть доступными интернет-пользователям. Поэтому если цель – скрыть веб-страницу не только от роботов, но и от пользователей, на нее нужно установить пароль.
     
  3. Поддомены рассматриваются поисковиками как отдельные сайты. Поэтому рекомендации по их индексации следует прописывать в отдельных robots.txt в корне каждого поддомена.
     
  4. robots.txt нечувствителен к регистру. Поэтому директивы можно писать как строчными, так и прописными. Но имена файлов и директорий должны прописываться только так, как они выглядят в адресной строке браузера.
     
  5. Указанный в директиве User-agent реагирует на все указанные под ним директивы вплоть до следующей строки с User-agent. Поэтому не стоит надеяться, что директивы под вторым User-agent будут выполнены роботом, указанным в первом User-agent. Для каждого робота указания нужно дублировать.
     

Проверка robots.txt на ошибки

Чтобы проверить robots.txt на ошибки, проще всего воспользоваться предназначенными для этого инструментами от поисковых систем.

В случае с Google нужно зайти в Search Console/Сканирование и выбрать «Инструмент проверки файла robots. txt».

Под окном с содержимым искомого файла можно увидеть количество ошибок и предупреждений.

В Яндекс.Вебмастере имеется аналогичный функционал (Инструменты/Анализ robots.txt).

Также имеется возможность узнать, сколько в проверяемом robots.txt ошибок.

Правда, если обе проверки покажут, что ошибок нет, это еще не повод радоваться. Это лишь значит, что прописанные в файле инструкции соответствуют стандартам.

Но в нем вполне могут быть многие из вышеописанных ошибок, которые приведут к проблемам с индексацией сайта. Поэтому при проверке robots.txt на ошибки не стоит полагаться лишь на подобные автоматизированные инструменты – нужно и самому все внимательно проверять.

Файл Robots.txt [Примеры 2021] — Moz

Что такое файл robots.txt?

Robots.txt — это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на своем веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя директивы, такие как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции сканирования определяются как «запрещающие» или «разрешающие» поведение определенных (или всех) пользовательских агентов.

Базовый формат:
 User-agent: [user-agent name] Disallow: [URL-строка не должна сканироваться] 

Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержат несколько строк пользовательских агентов и директив (т. е., запрещает, разрешает, задержки сканирования и т. д.).

В файле robots.txt каждый набор директив пользовательского агента отображается как дискретный набор , разделенных разрывом строки:

В файле robots.txt с несколькими директивами пользовательского агента, каждое запрещающее или разрешающее правило только применяется к агенту (ам), указанному в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, поисковый робот будет только обратить внимание (и следовать директивам в) наиболее конкретной группе инструкций.

Вот пример:

Msnbot, discobot и Slurp вызываются специально, поэтому только пользовательские агенты обращают внимание на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе user-agent: *.

Пример robots.txt:

Вот несколько примеров использования robots.txt для сайта www.example.com:

URL файла Robots.txt: www.example.com/robots.txt
Блокировка всех поисковых роботов для доступа ко всему содержимому
 User-agent: * Disallow: / 

Использование этого синтаксиса в файле robots.txt сообщит всем поисковым роботам не сканировать никакие страницы www.example .com, включая домашнюю страницу.

Разрешение всем поисковым роботам доступа ко всему контенту
 User-agent: * Disallow: 

Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на www.example.com, включая домашнюю страницу.

Блокировка определенного поискового робота из определенной папки
 User-agent: Googlebot Disallow: / example-subfolder / 

Этот синтаксис сообщает только поисковому роботу Google (имя агента пользователя Googlebot) не сканировать страницы, которые содержат строку URL www. example.com/example-subfolder/.

Блокировка определенного поискового робота с определенной веб-страницы
 User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html 

Этот синтаксис сообщает только поисковому роботу Bing (имя пользовательского агента Bing) избегать сканирование конкретной страницы www.example.com/example-subfolder/blocked-page.html.

Как работает robots.txt?

Поисковые системы выполняют две основные задачи:

  1. Сканирование Интернета для обнаружения контента;
  2. Индексирование этого контента, чтобы его могли обслуживать искатели, ищущие информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой — в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое ползание иногда называют «пауками».”

После перехода на веб-сайт, но перед его сканированием поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о , как должна сканировать поисковая система, найденная там информация будет указывать дальнейшие действия поискового робота на этом конкретном сайте. Если файл robots.txt не содержит , а не содержат директив, запрещающих действия пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайте.

Другой быстрый файл robots.txt, который необходимо знать:

(более подробно обсуждается ниже)

  • Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

  • Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. Д.).

  • Некоторые пользовательские агенты (роботы) могут игнорировать ваших роботов.txt файл. Это особенно характерно для более гнусных поисковых роботов, таких как вредоносные роботы или парсеры адресов электронной почты.

  • Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может видеть, какие страницы вы просматриваете или не хотите сканировать, поэтому не используйте их для сокрытия личной информации пользователя.

  • Каждый субдомен в корневом домене использует отдельных роботов.txt файлы. Это означает, что и blog.example.com, и example.com должны иметь свои собственные файлы robots.txt (по адресу blog.example.com/robots.txt и example.com/robots.txt).

  • Обычно рекомендуется указывать расположение любых карт сайта, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

Технический синтаксис robots.txt

Синтаксис Robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

  • User-agent: Конкретный поисковый робот, которому вы даете инструкции для сканирования (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

  • Disallow: Команда, используемая для указания агенту пользователя не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».

  • Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.

  • Crawl-delay: Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.

  • Sitemap: Используется для вызова местоположения любых XML-файлов Sitemap, связанных с этим URL. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Сопоставление с шаблоном

Когда дело доходит до фактических URL-адресов для блокировки или разрешения, robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с образцом для охвата диапазона возможных вариантов URL. И Google, и Bing соблюдают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые оптимизатор поисковых систем хочет исключить. Эти два символа — звездочка (*) и знак доллара ($).

  • * — это подстановочный знак, который представляет любую последовательность символов.
  • $ соответствует концу URL-адреса.

Google предлагает здесь большой список возможных синтаксисов и примеров сопоставления с образцом.

Где находится файл robots.txt на сайте?

Когда бы они ни заходили на сайт, поисковые системы и другие роботы, сканирующие Интернет (например, сканер Facebook Facebot), знают, что нужно искать файл robots. txt. Но они будут искать этот файл только в одном конкретном месте : в основном каталоге (обычно в корневом домене или на домашней странице). Если пользовательский агент посещает www.example.com/robots.txt и не находит там файла роботов, он будет считать, что на сайте его нет, и продолжит сканирование всего на странице (и, возможно, даже на всем сайте. ).Даже если страница robots.txt или существует, скажем, по адресу example.com/index/robots.txt или www.example.com/homepage/robots.txt, она не будет обнаружена пользовательскими агентами и, следовательно, сайт будет обрабатываться так, как если бы он вообще не имел файла robots.

Чтобы гарантировать, что ваш файл robots.txt найден, всегда включайте его в свой основной каталог или корневой домен.

Зачем нужен robots.txt?

Файлы Robots.txt управляют доступом поискового робота к определенным областям вашего сайта.Хотя это может быть очень опасным, если вы случайно запретите роботу Google сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots. txt может оказаться очень полезным.

Некоторые распространенные варианты использования включают:

  • Предотвращение появления дублированного контента в результатах поиска (обратите внимание, что мета-роботы часто являются лучшим выбором для этого)
  • Сохранение приватности целых разделов веб-сайта (например, промежуточного сайта вашей группы инженеров)
  • Предотвращение показа страниц с результатами внутреннего поиска в общедоступной поисковой выдаче
  • Указание местоположения карты (карт) сайта
  • Запрещение поисковым системам индексировать определенные файлы на вашем веб-сайте (изображения, PDF-файлы и т. Д.))
  • Указание задержки сканирования для предотвращения перегрузки ваших серверов, когда сканеры загружают сразу несколько частей контента

Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, вы не можете вообще нужен файл robots.txt.

Проверка наличия файла robots.

txt

Не уверены, есть ли у вас файл robots.txt? Просто введите свой корневой домен, а затем добавьте /robots.txt в конец URL-адреса. Например, файл роботов Moz находится по адресу moz.ru / robots.txt.

Если страница .txt не отображается, значит, у вас нет (активной) страницы robots.txt.

Как создать файл robots.txt

Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создание его — простой процесс. В этой статье от Google рассказывается о процессе создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

Хотите попрактиковаться в создании файлов роботов? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

Лучшие методы SEO

  • Убедитесь, что вы не блокируете какой-либо контент или разделы своего веб-сайта, которые нужно просканировать.

  • Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут. Это означает 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. Е. Страницы, не заблокированные через robots.txt, мета-роботы или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой ссылочный капитал не может быть передан с заблокированной страницы на место назначения ссылки.Если у вас есть страницы, на которые вы хотите передать средства, используйте другой механизм блокировки, отличный от robots.txt.

  • Не используйте robots.txt для предотвращения появления конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt в вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или метадирективу noindex.

  • Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов из одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких сканеров поисковой системы, но возможность делать это позволяет вам точно настроить способ сканирования содержания вашего сайта.

  • Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день.Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить URL-адрес robots.txt в Google.

Robots.txt против мета-роботов против x-роботов

Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt — это фактический текстовый файл, тогда как meta и x-robots — это метадирективы. Помимо того, что они есть на самом деле, все три выполняют разные функции. Robots.txt определяет поведение сканирования сайта или всего каталога, тогда как мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).


Продолжайте учиться

Используйте свои навыки на практике

Moz Pro может определить, блокирует ли ваш файл robots.txt доступ к вашему веб-сайту. Попробовать >>

Robots.txt и SEO: полное руководство

Что такое Robots.txt?

Robots.txt — это файл, который сообщает паукам поисковых систем не сканировать определенные страницы или разделы веб-сайта. Большинство основных поисковых систем (включая Google, Bing и Yahoo) распознают и обрабатывают запросы Robots.txt.

Почему важен файл robots.txt?

Большинству веб-сайтов файл robots.txt не нужен.

Это потому, что Google обычно может найти и проиндексировать все важные страницы вашего сайта.

И они автоматически НЕ будут индексировать несущественные страницы или дублировать версии других страниц.

Тем не менее, есть 3 основные причины, по которым вы хотите использовать файл robots.txt.

Блокировать закрытые страницы. Иногда на вашем сайте есть страницы, которые вы не хотите индексировать.Например, у вас может быть промежуточная версия страницы. Или страницу входа в систему. Эти страницы должны существовать. Но вы же не хотите, чтобы на них садились случайные люди. Это тот случай, когда вы использовали robots.txt, чтобы заблокировать эти страницы от поисковых роботов и роботов.

Максимальное увеличение бюджета сканирования. Если вам сложно проиндексировать все страницы, возможно, у вас проблема с бюджетом сканирования. Блокируя неважные страницы с помощью файла robots.txt, робот Googlebot может тратить большую часть вашего бюджета сканирования на действительно важные страницы.

Предотвращение индексации ресурсов: использование метадиректив может работать так же хорошо, как Robots. txt для предотвращения индексации страниц. Однако метадирективы плохо работают с мультимедийными ресурсами, такими как PDF-файлы и изображения. Вот где в игру вступает robots.txt.

В нижней строке? Robots.txt сообщает паукам поисковых систем не сканировать определенные страницы вашего сайта.

Вы можете проверить, сколько страниц вы проиндексировали, в Google Search Console.

Если число совпадает с количеством страниц, которые вы хотите проиндексировать, вам не нужно возиться с роботами.txt файл.

Но если это число выше, чем вы ожидали (и вы заметили проиндексированные URL-адреса, которые не следует индексировать), то пора создать файл robots.txt для вашего веб-сайта.

Лучшие Лрактики

Создание файла Robots.txt

Ваш первый шаг — это собственно создание файла robots.txt.

Будучи текстовым файлом, вы можете создать его с помощью блокнота Windows.

И независимо от того, как вы в конечном итоге создаете свой файл robots. txt, формат точно такой же:

Пользовательский агент: X
Запрещено: Y

User-agent — это конкретный бот, с которым вы разговариваете.

И все, что идет после «запретить», — это страницы или разделы, которые вы хотите заблокировать.

Вот пример:

Пользовательский агент: googlebot
Запретить: / images

Это правило указывает роботу Googlebot не индексировать папку изображений на вашем веб-сайте.

Вы также можете использовать звездочку (*), чтобы общаться со всеми ботами, которые останавливаются на вашем сайте.

Вот пример:

Пользовательский агент: *
Disallow: / images

Знак «*» говорит всем паукам НЕ сканировать папку с изображениями.

Это лишь один из многих способов использования файла robots.txt. В этом полезном руководстве от Google есть дополнительная информация о различных правилах, которые вы можете использовать для блокировки или разрешения ботам сканировать разные страницы вашего сайта.

Облегчите поиск файла Robots.txt

Когда у вас есть файл robots.txt, самое время запустить его.

Технически вы можете разместить файл robots.txt в любом основном каталоге вашего сайта.

Но чтобы увеличить вероятность того, что ваш файл robots.txt будет найден, я рекомендую разместить его по адресу:

https: // пример.com / robots.txt

(Обратите внимание, что ваш файл robots.txt чувствителен к регистру. Поэтому обязательно используйте строчную букву «r» в имени файла)

Проверка ошибок и ошибок

ДЕЙСТВИТЕЛЬНО важно, чтобы ваш файл robots.txt был настроен правильно. Одна ошибка — и весь ваш сайт может быть деиндексирован.

К счастью, вам не нужно надеяться, что ваш код настроен правильно. У Google есть отличный инструмент для тестирования роботов, который вы можете использовать:

Он показывает ваш файл robots.txt… и все обнаруженные ошибки и предупреждения:

Как видите, мы не позволяем паукам сканировать нашу страницу администратора WP.

Мы также используем robots.txt, чтобы блокировать сканирование страниц с автоматически созданными тегами WordPress (для ограничения дублирования контента).

Robots.txt и мета-директивы

Зачем вам использовать robots.txt, если вы можете блокировать страницы на уровне страницы с помощью метатега «noindex»?

Как я упоминал ранее, тег noindex сложно реализовать в мультимедийных ресурсах, таких как видео и PDF-файлы.

Кроме того, если у вас есть тысячи страниц, которые вы хотите заблокировать, иногда проще заблокировать весь раздел этого сайта с помощью robots.txt вместо того, чтобы вручную добавлять тег noindex на каждую страницу.

Есть также крайние случаи, когда вы не хотите тратить бюджет сканирования на целевые страницы Google с тегом noindex.

Тем не менее:

Помимо этих трех крайних случаев, я рекомендую использовать метадирективы вместо robots.txt. Их проще реализовать. И меньше шансов на катастрофу (например, блокировку всего вашего сайта).

Узнать больше

Узнайте о роботах.txt: полезное руководство по использованию и интерпретации файла robots.txt.

Что такое файл Robots.txt? (Обзор SEO + Key Insight): подробное видео о различных вариантах использования robots.txt.

Robots.txt Введение и руководство | Центр поиска Google

Что такое файл robots.txt?

Файл robots.txt сообщает сканерам поисковых систем, какие страницы или файлы он может или не могу запросить с вашего сайта. Это используется в основном для того, чтобы не перегружать ваш сайт Запросы; — это не механизм, позволяющий скрыть веб-страницу от Google. Чтобы веб-страница не попала в Google, вы должны использовать директив noindex , или защитите свою страницу паролем.

Для чего используется robots.txt?

Файл

robots.txt используется в основном для управления трафиком поисковых роботов на ваш сайт, а обычно для защиты страницы от Google, в зависимости от типа файла:

Тип страницы Управление движением Скрыть от Google Описание
Интернет-страница

Для веб-страниц (HTML, PDF или другие немедийные форматы, которые может читать Google), robots.txt можно использовать для управления трафиком сканирования, если вы считаете, что ваш сервер будет перегружен запросами от сканера Google, или чтобы избежать сканирования неважных или похожих страниц на вашем сайте.

Вы не должны использовать robots.txt как средство, чтобы скрыть свои веб-страницы от результатов поиска Google. Это связано с тем, что, если другие страницы указывают на вашу страницу с описательным текстом, ваша страница все равно может быть проиндексирована без посещения страницы. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или директиву noindex .

Если ваша веб-страница заблокирована файлом robots.txt , она все равно может отображаться в результатах поиска, но результат поиска не будет иметь описания и будет выглядеть примерно так. Файлы изображений, видеофайлы, PDF-файлы и другие файлы, отличные от HTML, будут исключены. Если вы видите этот результат поиска для своей страницы и хотите его исправить, удалите запись robots.txt, блокирующую страницу. Если вы хотите полностью скрыть страницу от поиска, воспользуйтесь другим методом.

Медиа-файл

Используйте роботов.txt для управления трафиком сканирования, а также для предотвращения появления изображений, видео и аудио файлов в результатах поиска Google. (Обратите внимание, что это не помешает другим страницам или пользователям ссылаться на ваш файл изображения / видео / аудио.)

Файл ресурсов Вы можете использовать robots.txt для блокировки файлов ресурсов, таких как неважные изображения, скрипты или файлы стилей, , если вы считаете, что страницы, загруженные без этих ресурсов, не пострадают от потери .Однако, если отсутствие этих ресурсов затрудняет понимание страницы поисковым роботом Google, вы не должны блокировать их, иначе Google не сможет хорошо проанализировать страницы, которые зависят от этих ресурсов.

Я пользуюсь услугами хостинга сайтов

Если вы используете службу хостинга веб-сайтов, такую ​​как Wix, Drupal или Blogger, вам может не потребоваться (или у вас будет возможность) напрямую редактировать файл robots.txt. Вместо этого ваш провайдер может открыть страницу настроек поиска или какой-либо другой механизм, чтобы сообщить поисковым системам, сканировать ли вашу страницу или нет.

Чтобы узнать, просканировала ли ваша страница Google, найдите URL-адрес страницы в Google.

Если вы хотите скрыть (или показать) свою страницу от поисковых систем, добавьте (или удалите) любые требования для входа на страницу, которые могут существовать, и выполните поиск инструкций по изменению видимости вашей страницы в поисковых системах на вашем хостинге, например: wix скрыть страницу от поисковых систем

Ознакомьтесь с ограничениями robots.txt

Прежде чем создавать или редактировать robots.txt, вы должны знать ограничения этого метода блокировки URL.Иногда вам может потребоваться рассмотреть другие механизмы, чтобы гарантировать, что ваши URL-адреса не будут найдены в Интернете.

  • Директивы Robots.txt могут поддерживаться не всеми поисковыми системами.
    Инструкции в файлах robots.txt не могут принудить сканер к вашему сайту, поисковый робот должен им подчиняться. В то время как робот Googlebot и другие известные поисковые роботы подчиняются инструкциям из файла robots.txt , другие поисковые роботы могут этого не делать. Поэтому, если вы хотите защитить информацию от веб-сканеров, лучше использовать другие методы блокировки, такие как защита паролем личных файлов на вашем сервере.
  • Различные поисковые роботы по-разному интерпретируют синтаксис
    Хотя уважаемые веб-сканеры следуют директивам в файле robots.txt , каждый сканер может интерпретировать директивы по-разному. Вы должны знать правильный синтаксис для обращения к разным поисковым роботам, поскольку некоторые из них могут не понимать определенные инструкции.
  • Роботизированная страница все еще может быть проиндексирована, если на нее есть ссылки с других сайтов
    В то время как Google не будет сканировать и индексировать контент, заблокированный robots.txt , мы все равно можем найти и проиндексировать запрещенный URL, если на него есть ссылки из других мест в Интернете. В результате URL-адрес и, возможно, другая общедоступная информация, такая как текст привязки в ссылках на страницу, все еще может отображаться в результатах поиска Google. Чтобы правильно предотвратить появление вашего URL в результатах поиска Google, вы должны защитить паролем файлы на своем сервере или использовать метатег noindex или заголовок ответа (или полностью удалить страницу).

Тестирование страницы на наличие роботов.txt блоки

Вы можете проверить, заблокирована ли страница или ресурс правилом robots.txt.

Для проверки директив noindex используйте инструмент проверки URL.

Создайте файл robots.txt | Центр поиска Google | Разработчики Google

Если вы пользуетесь услугами хостинга сайтов, например Wix или Blogger, вы может не понадобиться создавать или редактировать файл robots.txt.

Начало работы

Файл robots.txt находится в корне вашего сайта.Итак, для сайта www.example.com , файл robots.txt находится по адресу www.example.com/robots.txt . robots.txt - это простой текстовый файл, следующий за Стандарт исключения роботов. Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует (или разрешает) доступ для данного поискового робота на указанный путь к файлу на этом веб-сайте.

Вот простой файл robots.txt с двумя правилами, описанными ниже:

# Группа 1
Пользовательский агент: Googlebot
Запретить: / nogooglebot /

# Группа 2
Пользовательский агент: *
Позволять: /

Карта сайта: http: // www.example.com/sitemap.xml 

Пояснение:

  1. Пользовательскому агенту с именем "Googlebot" не разрешено сканировать http://example.com/nogooglebot/ или любые подкаталоги.
  2. Всем остальным пользовательским агентам разрешено сканировать весь сайт. (Это могло быть пропущено и результат будет таким же, поскольку предполагается полный доступ.)
  3. Файл карты сайта находится по адресу http: // www.example.com/sitemap.xml .

Дополнительные примеры см. В разделе синтаксиса.

Основные принципы robots.txt

Вот несколько основных рекомендаций для файлов robots.txt. Мы рекомендуем вам прочитать полный синтаксис файлов robots.txt, поскольку Синтаксис robots.txt имеет некоторые тонкие особенности, которые вам следует понять.

Формат и расположение

Вы можете использовать практически любой текстовый редактор для создания файла robots.txt файл. Текстовый редактор должен уметь для создания стандартных текстовых файлов UTF-8. Не используйте текстовый процессор; текстовые процессоры часто экономят файлы в проприетарном формате и могут добавлять неожиданные символы, такие как фигурные кавычки, которые может вызвать проблемы для сканеров.

Используйте тестер robots.txt для записи или редактирования файлов robots.txt для вашего сайта. Этот инструмент позволяет вам проверить синтаксис и поведение против вашего сайта.

Правила формата и расположения:

  • Файл должен называться robots.txt
  • На вашем сайте может быть только один файл robots.txt.
  • Файл robots.txt должен находиться в корне хоста веб-сайта, чтобы который применяется. Например, для управления сканированием всех URL-адресов ниже http://www.example.com/ , файл robots.txt должен находиться по адресу http://www.example.com/robots.txt . Это не может быть помещено в подкаталог (например, по адресу http: // example.ru / pages / robots.txt ). Если вы не знаете, как получить доступ к корню вашего веб-сайта, или вам нужны разрешения для этого, обратитесь к своему веб-сайту провайдер хостинг-услуг. Если вы не можете получить доступ к корню вашего сайта, используйте альтернативную блокировку метод, такой как метатеги.
  • Файл robots.txt может применяться к субдоменам (например, http: // website .example.com / robots.txt ) или на нестандартных порты (например, http: // example.com: 8181 /robots.txt ).
  • Комментарии - это любое содержимое после отметки # .

Синтаксис

  • robots.txt должен быть текстовым файлом в кодировке UTF-8 (включая ASCII). Использование другого персонажа наборы невозможно.
  • Файл robots.txt состоит из одной или нескольких групп .
  • Каждая группа состоит из нескольких правил или директив (инструкции), по одной директиве на строку.
  • Группа предоставляет следующую информацию:
    • Кому относится группа (пользовательский агент )
    • К каким каталогам или файлам может обращаться агент и / или
    • К каким каталогам или файлам не может получить доступ агент . .
  • Группы обрабатываются сверху вниз, и пользовательский агент может соответствовать только одному набору правил, который это первое, наиболее конкретное правило, соответствующее данному пользовательскому агенту.
  • Предположение по умолчанию состоит в том, что пользовательский агент может сканировать любую страницу или каталог. не заблокирован правилом Disallow: .
  • Правила чувствительны к регистру . Например, Disallow: /file.asp применяется к http://www.example.com/file.asp , но не http://www.example.com/FILE.asp .

В роботах используются следующие директивы.txt файлы:

  • Агент пользователя: [ Обязательно, по одному или нескольким на группу ] директива определяет имя поисковой системы , робот (программное обеспечение веб-сканера), который правило применяется к. Это первая строка для любой группы правил. Имена пользовательских агентов Google: перечисленные в Список пользовательских агентов Google. Использование звездочки ( * ), как в примере ниже, будет соответствовать всем поисковым роботам. , за исключением различных поисковых роботов AdsBot , которые должны иметь явное имя. Примеры:
    # Пример 1. Заблокировать только Googlebot
    Пользовательский агент: Googlebot
    Запретить: /
    
    # Пример 2. Блокировка роботов Googlebot и Adsbot
    Пользовательский агент: Googlebot
    Пользовательский агент: AdsBot-Google
    Запретить: /
    
    # Пример 3. Блокировка всех сканеров, кроме AdsBot
    Пользовательский агент: *
    Disallow: / 
  • Disallow: [ Как минимум один или несколько Disallow или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, что вы не хотите, чтобы пользовательский агент сканировал.Если правило относится к странице, это должно быть полное имя страницы, как показано в браузере; если он относится к каталогу, он должен заканчиваться Марка /.
  • Разрешить: [ Как минимум один или несколько Запретить или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом. Это используется для отмены Disallow Директива разрешает сканирование подкаталога или страницы в запрещенном каталог.Для одной страницы полное имя страницы, отображаемое в браузере, должно быть указано. В случае каталога правило должно заканчиваться отметкой /.
  • Sitemap: [ Необязательно, ноль или более на файл ] расположение карты сайта для этого веб-сайта. URL-адрес карты сайта должен быть полным URL-адресом; Google не предполагает и не проверяет альтернативы http / https / www.non-www. Файлы Sitemap - хороший способ указать, какой контент Google должен сканировать , а не какой контент может или не может сканировать.Узнайте больше о файлах Sitemap. Пример:
    Карта сайта: https://example.com/sitemap.xml
    Карта сайта: http://www.example.com/sitemap.xml 

Все директивы, кроме sitemap , поддерживают подстановочный знак * для пути префикс, суффикс или целая строка.

Строки, не соответствующие ни одной из этих директив, игнорируются.

Другой пример файла

Файл robots.txt состоит из одной или нескольких групп, каждая из которых начинается с User-agent Строка, указывающая цель групп.Вот файл с двумя группы; встроенные комментарии объясняют каждую группу:

# Заблокировать googlebot из example.com/directory1 / ... и example.com/directory2 / ...
# но разрешить доступ к directory2 / subdirectory1 / ...
# Все остальные каталоги на сайте разрешены по умолчанию.
Пользовательский агент: googlebot
Запретить: / directory1 /
Запретить: / каталог2 /
Разрешить: / каталог2 / подкаталог1 /

# Блокировать весь сайт от другого сканера.
Пользовательский агент: anothercrawler
Disallow: / 

Полный синтаксис robots.txt

Вы можете найти полные robots.txt здесь. Пожалуйста, прочтите полную документацию, так как синтаксис robots.txt имеет несколько сложных частей, которые важно узнать.

Полезные правила robots.txt

Вот несколько общих полезных правил robots.txt:

Правило Образец
Запретить сканирование всего веб-сайта. Имейте в виду, что в некоторых ситуаций URL-адреса с веб-сайта все еще могут быть проиндексированы, даже если они не были поползли.Это не соответствует различные сканеры AdsBot, который должен быть назван явно.
Пользовательский агент: *
Disallow: / 
Запретить сканирование каталога и его содержимого , следуя имя каталога с косой чертой. Помните, что вам не следует использовать robots.txt для блокировки доступ к частному контенту: вместо этого используйте правильную аутентификацию.URL-адреса, запрещенные Файл robots.txt может по-прежнему индексироваться без сканирования, а файл robots.txt могут быть просмотрены кем угодно, потенциально раскрывая местонахождение вашего личного контента.
Пользовательский агент: *
Запретить: / календарь /
Disallow: / junk / 
.
Разрешить доступ одному искателю
User-agent: Googlebot-news
Позволять: /

Пользовательский агент: *
Disallow: / 
Разрешить доступ всем, кроме одного поискового робота
Пользовательский агент: Ненужный бот
Запретить: /

Пользовательский агент: *
Разрешить: / 

Запретить сканирование отдельной веб-страницы , указав страницу после слэш:

Пользовательский агент: *
Запретить: / частный_файл.HTML 

Заблокировать определенное изображение из Картинок Google:

Пользовательский агент: Googlebot-Image
Запретить: /images/dogs.jpg 

Заблокировать все изображения на вашем сайте из Картинок Google:

Пользовательский агент: Googlebot-Image
Disallow: / 

Запретить сканирование файлов определенного типа (например, .gif ):

Пользовательский агент: Googlebot
Disallow: /*.gif$ 

Запретить сканирование всего сайта, но показывать рекламу AdSense на этих страницах , и запретить использование всех поисковых роботов, кроме Mediapartners-Google . Этот реализация скрывает ваши страницы из результатов поиска, но Mediapartners-Google поисковый робот все еще может проанализировать их, чтобы решить какую рекламу показывать посетителям вашего сайта.

Пользовательский агент: *
Запретить: /

Пользовательский агент: Mediapartners-Google
Разрешить: / 
Чтобы сопоставить URL-адреса, которые заканчиваются определенной строкой , используйте $ . За Например, пример кода блокирует любые URL-адреса, которые заканчиваются на .xls :
Пользовательский агент: Googlebot
Запрещено: /*.xls$
 

Роботы.txt - Все, что нужно знать оптимизаторам поисковых систем

В этом разделе нашего руководства по директивам для роботов мы подробно рассмотрим текстовый файл robots.txt и то, как его можно использовать для инструктирования поисковых роботов. Этот файл особенно полезен для , управляющего бюджетом сканирования и проверки того, что поисковые системы проводят время на вашем сайте эффективно и сканируют только важные страницы.

Для чего нужен txt-файл robots?

Роботы .txt файл предназначен для того, чтобы сообщить сканерам и роботам, какие URL-адреса им не следует посещать на вашем веб-сайте. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес для каждого дня.

Как объясняет Google в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом в кодировке UTF-8. Записи (или строки) файла должны быть разделены CR, CR / LF или LF.

Следует помнить о размере файла robots.txt, поскольку поисковые системы имеют свои собственные ограничения на максимальный размер файла. Максимальный размер для Google - 500 КБ.

Где должен находиться файл robots.txt?

Файл robots.txt всегда должен находиться в корне домена, например:

Этот файл относится к протоколу и полному домену, поэтому robots.txt на https://www.example.com не влияет на сканирование http: // www.example.com или https://subdomain.example.com ; у них должны быть собственные файлы robots.txt.

Когда следует использовать правила robots.txt?

Как правило, веб-сайты должны стараться как можно реже использовать robots.txt для контроля сканирования. Лучшее решение - улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Однако рекомендуется использовать файл robots.txt там, где это необходимо для предотвращения доступа сканеров к некачественным разделам сайта, если эти проблемы не могут быть устранены в краткосрочной перспективе.

Google рекомендует использовать robots.txt только при возникновении проблем с сервером или при проблемах с эффективностью сканирования, например, когда робот Google тратит много времени на сканирование неиндексируемых разделов сайта.

Вот несколько примеров страниц, сканирование которых может быть нежелательно:

  • Страницы категорий с нестандартной сортировкой , поскольку это обычно создает дублирование со страницей основной категории
  • Пользовательский контент , который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Страницы внутреннего поиска , так как таких страниц результатов может быть бесконечное количество, что создает неудобства для пользователя и расходует бюджет сканирования

Когда нельзя использовать robots.текст?

Файл robots.txt - полезный инструмент при правильном использовании, однако в некоторых случаях это не лучшее решение. Вот несколько примеров того, когда не следует использовать robots.txt для управления сканированием:

1. Блокировка Javascript / CSS

Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте, чтобы правильно отображать страницы, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые кардинально меняют взаимодействие с пользователем, но которым запрещено сканирование поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

Например, если вы показываете рекламное межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не может получить доступ, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.

2. Блокировка параметров URL

Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, поскольку там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

Вы также можете поместить информацию во фрагмент URL ( / page # sort = price ), так как поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel = nofollow, чтобы предотвратить попытки поисковых роботов получить к нему доступ.

3. Блокировка URL с обратными ссылками

Запрет URL-адресов в файле robots.txt предотвращает передачу ссылочного веса на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитет, который передаются по этим ссылкам, и, как следствие, вы не сможете получить такой же высокий рейтинг в целом.

4. Получение деиндексированных проиндексированных страниц

Использование Disallow не приводит к деиндексированию страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексации в значительной степени разделены.

5. Установка правил, игнорирующих поисковые роботы социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети имели доступ к этим страницам, чтобы можно было создать фрагмент страницы.Например, Facebook попытается посетить каждую страницу, размещенную в сети, чтобы они могли предоставить соответствующий фрагмент. Помните об этом при настройке правил robots.txt.

6. Блокировка доступа с тестовых или разработчиков сайтов

Использование robots.txt для блокировки всего промежуточного сайта - не лучшая практика. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы с каких-либо страниц.В этой ситуации совершенно приемлемо не иметь файла robots.txt и возвращать статус 404 по запросу.

Синтаксис и форматирование файла robots.txt

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизованный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.

Комментарии

Комментарии - это строки, которые полностью игнорируются поисковыми системами и начинаются с # .Они существуют, чтобы вы могли писать заметки о том, что делает каждая строка вашего robots.txt, почему она существует и когда была добавлена. Как правило, рекомендуется задокументировать назначение каждой строки файла robots.txt, чтобы ее можно было удалить, когда она больше не нужна, и не изменять, пока она еще необходима.

Указание агента пользователя

Блок правил может быть применен к определенным пользовательским агентам с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно достичь, указав токен пользовательского агента, к которому применяется набор правил.

У каждого искателя есть собственный токен агента пользователя, который используется для выбора совпадающих блоков.

Поисковые роботы

будут следовать наиболее конкретным правилам пользовательского агента, установленным для них с именами, разделенными дефисами, а затем будут использовать более общие правила, если точное соответствие не будет найдено. Например, Googlebot News будет искать соответствие " googlebot-news ", затем " googlebot ", затем " * ".

Вот некоторые из наиболее распространенных токенов пользовательских агентов, с которыми вы можете столкнуться:

  • * - Правила применяются к каждому боту, если нет более конкретного набора правил
  • Googlebot - Все сканеры Google
  • Googlebot-News - Поисковый робот для новостей Google
  • Googlebot-Image - сканер изображений Google
  • Mediapartners-Google - поисковый робот Google AdSense
  • Bingbot - сканер Bing
  • Яндекс - поисковый робот Яндекса
  • Baiduspider - гусеничный трактор Baidu
  • Facebot - поисковый робот Facebook
  • Twitterbot - поисковый робот Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, взгляните на документацию, опубликованную Google , Bing , Yandex , Baidu , Facebook и Twitter .

При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «Googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

URL с сопоставлением с шаблоном

У вас может быть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL-адресов, которые следует исключить в файле robots.txt.

Чтобы помочь вам уточнить пути URL-адресов, вы можете использовать символы * и $. Вот как они работают:

  • * - Это подстановочный знак, представляющий любое количество любого символа.Он может быть в начале или в середине пути URL, но не обязателен в конце. Вы можете использовать несколько подстановочных знаков в строке URL-адреса, например, « Disallow: * / products? * Sort = ». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ - этот символ обозначает конец строки URL-адреса, поэтому « Disallow: * / dress $ » будет соответствовать только URL-адресам, заканчивающимся на « / dress », а не « / dress? Параметр ».

Стоит отметить, что robots.txt чувствительны к регистру, что означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *? search = »), роботы могут сканировать URL-адреса с разными заглавными буквами, например «? Search = ничего ».

Правила директивы сопоставляются только с путями URL и не могут включать протокол или имя хоста. Косая черта в начале директивы совпадает с началом пути URL. Например. « Disallow: / start » будет соответствовать www.example.com/starts .

Если вы не добавите начало директивы, совпадающей с / или * , она ни с чем не будет соответствовать. Например. « Disallow: start » никогда ничего не совпадет.

Чтобы помочь наглядно представить, как работают разные правила для URL, мы собрали для вас несколько примеров:

Robots.txt Ссылка на карту сайта

Директива карты сайта в файле robots.txt сообщает поисковым системам, где найти карту сайта XML, которая помогает им обнаруживать все URL-адреса на веб-сайте.Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по аудиту карт сайта и расширенной настройке .

При включении карт сайта в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL (например, /sitemap.xml ). Это также Стоит отметить, что карты сайта не обязательно должны располагаться в одном корневом домене, они также могут размещаться во внешнем домене.

Поисковые системы обнаружат и могут сканировать карты сайта, перечисленные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

Robots.txt Блокирует

Правило запрета в файле robots.txt может использоваться разными способами для различных пользовательских агентов. В этом разделе мы рассмотрим некоторые из различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt - это всего лишь инструкции. Вредоносные сканеры проигнорируют ваших роботов.txt и сканировать любую часть вашего сайта, которая является общедоступной, поэтому запрет не следует использовать вместо надежных мер безопасности.

Несколько блоков пользовательского агента

Вы можете сопоставить блок правил с несколькими пользовательскими агентами, указав их перед набором правил, например, следующие запрещающие правила будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

User-agent: googlebot
User-agent: bing
Disallow: / a

Расстояние между блоками директив

Google игнорирует пробелы между директивами и блоками.В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:

[код]
User-agent: *
Disallow: / disallowed /

Запретить: / test1 / robots_excluded_blank_line
[/ code]

Во втором примере робот Googlebot-mobile унаследует те же правила, что и Bingbot:

[код]
User-agent: googlebot-mobile

User-agent: bing
Disallow: / test1 / deepcrawl_excluded
[/ code]

Блоки раздельные комбинированные

Объединяются несколько блоков с одним и тем же пользовательским агентом.Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « / b » и « / a ».

User-agent: googlebot
Disallow: / b

User-agent: bing
Disallow: / a

User-agent: googlebot
Disallow: / a

Robots.txt Разрешить

«Разрешающее» правило robots.txt явно дает разрешение на сканирование определенных URL. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи запрещающего правила.Например, если « / location » не разрешено, вы можете разрешить сканирование « / locations / london » с помощью специального правила « Allow: / locations / london ».

Robots.txt Приоритизация

Если к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется самое длинное правило сопоставления. Давайте посмотрим, что произойдет с URL « / home / search / shirts » при следующих правилах:

Disallow: / home
Allow: * search / *
Disallow: * рубашки

В этом случае сканирование URL разрешено, потому что правило разрешения содержит 9 символов, а правило запрета - только 7.Если вам нужно разрешить или запретить конкретный URL-путь, вы можете использовать *, чтобы сделать строку длиннее. Например:

Disallow: ******************* / рубашки

Если URL-адрес соответствует и разрешающему правилу, и запрещающему правилу, но правила имеют одинаковую длину, будет выполнено запрещение. Например, URL « / search / shirts » будет запрещен в следующем сценарии:

Disallow: / search
Allow: * рубашки

Роботы.txt Директивы

Директивы уровня страницы (которые мы рассмотрим позже в этом руководстве) - отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны сканировать страницу, прежде чем смогут прочитать эти инструкции, что может потребовать бюджета сканирования.

Директивы Robots.txt могут помочь снизить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем принимать меры. Это решение намного быстрее и проще в использовании.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

Robots.txt NoIndex

Robots.txt noindex - полезный инструмент для управления индексацией поисковой системы без использования краулингового бюджета. Запрещение страницы в robots.txt не означает, что она удаляется из индекса, поэтому для этой цели гораздо эффективнее использовать директиву noindex.

Google официально не поддерживает noindex в robots.txt, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен и должен использоваться в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексами, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые доказывают, что эта функция работает эффективно.

Вот пример использования robots.txt noindex:

[код]
User-agent: *
NoIndex: / directory
NoIndex: / *? * Sort =
[/ code]

Помимо noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам индексирования, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и сканеры поддерживают эти директивы, а те, которые поддерживают, могут перестать поддерживать их в любой момент - не следует полагаться на их постоянную работу.

Обычные роботы.txt, проблемы

Есть несколько ключевых проблем и соображений, касающихся файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, можете избежать.

  1. Иметь запасной блок правил для всех ботов - Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для каждого другого бота означает, что ваш веб-сайт в конечном итоге встретит бота, у которого нет никаких наборов правил для следить.
  2. I t Важно, чтобы файл robots.txt поддерживался в актуальном состоянии. - Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальной стадии разработки веб-сайта, но не обновляется по мере роста веб-сайта, что означает, что потенциально полезные страницы запрещены.
  3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса - Например, / продукт > / запрещенный > / категория
  4. Чувствительность к регистру может вызвать множество проблем - Веб-мастера могут ожидать, что какой-то раздел веб-сайта не будет сканироваться, но эти страницы могут сканироваться из-за альтернативного регистра i.е. «Disallow: / admin» существует, но поисковые системы сканируют « / ADMIN ».
  5. Не запрещать URL-адреса с обратными ссылками - Это предотвращает переход PageRank на ваш сайт от других пользователей, которые ссылаются на вас.
  6. Задержка сканирования может вызвать проблемы с поиском. - Директива « crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем это необходимо. Эта директива не соблюдается Google или Baidu, но поддерживается Bing и Яндексом.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт не работает. - Возвращение кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что они попытаются сканировать веб-сайт еще раз позже.
  8. Disallow Robots.txt переопределяет инструмент удаления параметров. - Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
  9. Разметка окна поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска. - Страницы внутреннего поиска на сайте не должны сканироваться, чтобы разметка окна поиска дополнительных ссылок работала.
  10. Отказ от перенесенного домена повлияет на успех миграции - Если вы запретите перенесенный домен, поисковые системы не смогут отслеживать перенаправления со старого сайта на новый, поэтому миграция маловероятна. быть успешным.

Роботы для тестирования и аудита.txt

Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы не обрабатываются должным образом, есть несколько различных способов проверить его, чтобы убедиться, что он настроен правильно. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt , а также на эти примеры:

  • Используйте DeepCrawl - запрещенных страниц и Запрещенные URL-адреса (не просканированные) Отчеты могут показать вам, какие страницы блокируются поисковыми системами вашими роботами.txt файл.
  • Используйте Google Search Console - с помощью инструмента тестера robots.txt GSC вы можете увидеть последнюю кэшированную версию страницы, а также использовать инструмент Fetch and Render для просмотра рендеров от пользовательского агента Googlebot, а также пользовательский агент браузера. На заметку: GSC работает только с пользовательскими агентами Google, и можно тестировать только отдельные URL-адреса.
  • Попробуйте объединить выводы обоих инструментов, выбрав выборочную проверку запрещенных URL-адресов, которые DeepCrawl пометил в роботах GSC.txt tester, чтобы уточнить конкретные правила, которые приводят к запрету.

Monitoring Robots.txt Изменения

Когда над сайтом работает много людей, и возникают проблемы, которые могут возникнуть, если хотя бы один символ неуместен в файле robots.txt, постоянный мониторинг вашего robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

  • Проверьте Google Search Console, чтобы увидеть текущие robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть, что именно видит Google.
  • Проверьте размер файла robots.txt, если вы заметили существенные изменения, чтобы убедиться, что он не превышает установленный Google размер 500 КБ.
  • Перейдите к отчету о статусе индекса в Google Search Console в расширенном режиме, чтобы проверить изменения файла robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
  • Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы отслеживать количество запрещенных страниц на вашем сайте на постоянной основе, чтобы вы могли отслеживать изменения.

Далее: Директивы по роботам на уровне URL

Автор

Рэйчел Костелло

Рэйчел Костелло - технический менеджер по поисковой оптимизации и контенту DeepCrawl. Чаще всего она пишет и говорит обо всем, что касается SEO.

Как это использовать и как это влияет на SEO

Является ли robots.txt соломинкой, ломающей спину вашему верблюду в области SEO?

Поисковая оптимизация (SEO) включает в себя большие и маленькие изменения веб-сайта.Файл robots.txt может показаться второстепенным техническим элементом SEO, но он может сильно повлиять на видимость и рейтинг вашего сайта.

Объяснив robots.txt, вы можете увидеть важность этого файла для функциональности и структуры вашего сайта. Продолжайте читать, чтобы узнать о лучших методах использования robots.txt для повышения вашего рейтинга на странице результатов поисковой системы (SERP).

Хотите эффективные комплексные стратегии SEO от ведущего агентства? У WebFX есть надежные сервисы и команда из 150+ специалистов, которые добавят опыта в вашу кампанию.Свяжитесь с нами онлайн или позвоните нам по телефону 888-601-5359 прямо сейчас.

Что такое файл robots.txt?

Файл robots.txt - это директива, которая сообщает роботам поисковых систем или сканерам, как проходить через сайт. В процессах сканирования и индексирования директивы действуют как приказы, направляющие роботов поисковых систем, таких как Googlebot, на нужные страницы.

Файлы

Robots.txt также относятся к категории обычных текстовых файлов и находятся в корневом каталоге сайтов. Если ваш домен «www.robotsrock.com », файл robots.txt находится по адресу« www.robotsrock.com/robots.txt ».

Файлы

Robots.txt выполняют две основные функции для ботов:

  • Запретить (заблокировать) сканирование пути URL. Однако файл robots.txt - это не то же самое, что метадирективы noindex, которые не позволяют страницам индексироваться.
  • Разрешить сканирование определенной страницы или подпапки, если ее родительский элемент запрещен.

Robots.txt больше похожи на предложения, чем на нерушимые правила для ботов - и ваши страницы все равно могут индексироваться и попадать в результаты поиска по выбранным ключевым словам.В основном файлы контролируют нагрузку на ваш сервер и регулируют частоту и глубину сканирования.

В этом файле указаны пользовательские агенты, которые либо применяются к конкретному боту поисковой системы, либо расширяют порядок для всех ботов. Например, если вы хотите, чтобы страницы постоянно сканировал только Google, а не Bing, вы можете отправить им директиву в качестве агента пользователя.

Разработчики или владельцы веб-сайтов могут запретить ботам сканировать определенные страницы или разделы сайта с файлом robots.txt.

Зачем нужны роботы.txt файлы?

Вы хотите, чтобы Google и его пользователи могли легко находить страницы на вашем сайте - в этом весь смысл SEO, верно? Что ж, это не обязательно правда. Вы хотите, чтобы Google и его пользователи без труда находили нужных страниц на вашем сайте.

Как и на большинстве сайтов, у вас, вероятно, есть страницы с благодарностью, которые отслеживают конверсии или транзакции. Подходят ли страницы благодарности как идеальный вариант для ранжирования и регулярного сканирования? Вряд ли.

Также часто в robots.txt файл.

Постоянное сканирование второстепенных страниц может замедлить работу вашего сервера и вызвать другие проблемы, мешающие вашим усилиям по поисковой оптимизации. Robots.txt - это решение, позволяющее контролировать, какие боты сканируют и когда.

Одна из причин, по которой файлы robots.txt помогают SEO, - это обработка новых действий по оптимизации. Их проверки на сканирование регистрируются, когда вы меняете теги заголовков, метаописания и использование ключевых слов, а эффективные сканеры поисковых систем как можно скорее ранжируют ваш сайт в соответствии с положительными изменениями.

По мере того, как вы реализуете свою стратегию SEO или публикуете новый контент, вы хотите, чтобы поисковые системы распознавали вносимые вами изменения, а результаты отражали эти изменения. Если у вас низкая скорость сканирования сайта, свидетельство того, что ваш сайт улучшился, может запаздывать.

Robots.txt может сделать ваш сайт аккуратным и эффективным, хотя напрямую не продвигает вашу страницу выше в поисковой выдаче. Они косвенно оптимизируют ваш сайт, поэтому он не влечет за собой штрафных санкций, сокращает ваш краулинговый бюджет, замедляет работу сервера и забивает не те страницы, полные ссылочного веса.

4 способа улучшения SEO с помощью файлов robots.txt

Хотя использование файлов robots.txt не гарантирует высокий рейтинг, это имеет значение для SEO. Это неотъемлемый технический компонент SEO, который обеспечивает бесперебойную работу вашего сайта и удовлетворяет посетителей.

SEO нацелен на быструю загрузку вашей страницы для пользователей, доставку оригинального контента и повышение релевантных страниц. Robots.txt играет важную роль в обеспечении доступности и полезности вашего сайта.

Вот четыре способа улучшить SEO с помощью роботов.txt файлы.

1. Сохраните краулинговый бюджет

Сканирование поисковыми роботами полезно, но сканирование может привести к перегрузке сайтов, у которых нет достаточных возможностей для обработки посещений ботов и пользователей.

Googlebot выделяет в бюджете часть для каждого сайта, которая соответствует их желательности и характеру. Некоторые сайты больше, другие обладают огромным авторитетом, поэтому они получают больше от Googlebot.

Google не дает четкого определения бюджета сканирования, но они говорят, что цель состоит в том, чтобы определить, что сканировать, когда сканировать и насколько тщательно это сканировать.

По сути, «краулинговый бюджет» - это выделенное количество страниц, которые робот Googlebot сканирует и индексирует на сайте в течение определенного периода времени.

У краулингового бюджета есть два движущих фактора:

  • Ограничение скорости сканирования накладывает ограничение на сканирование поисковой системой, чтобы не перегружать ваш сервер.
  • Требование сканирования , популярность и актуальность определяют, нужно ли сайту больше или меньше сканировать.

Поскольку у вас нет неограниченного количества сканирований, вы можете установить robots.txt, чтобы робот Googlebot не открывал лишние страницы и указывал им на важные. Это избавляет вас от лишних затрат на сканирование и избавляет вас и Google от беспокойства о нерелевантных страницах.

2. Предотвращение дублирования следов содержимого

Поисковые системы, как правило, неодобрительно относятся к дублированию контента, хотя они специально не хотят, чтобы манипулятивных дублированных материалов. Дублированный контент, например PDF-файлы или версии страниц для печати, не наносит ущерба вашему сайту.

Однако вам не нужны боты для сканирования страниц с дублированным содержанием и отображения их в поисковой выдаче.Robots.txt - это один из способов минимизировать доступный дублированный контент для сканирования.

Существуют и другие методы информирования Google о дублированном содержании, такие как канонизация - что является рекомендацией Google - но вы также можете заблокировать дублированный контент с помощью файлов robots.txt, чтобы сэкономить краулинговый бюджет.

3. Перенести ссылочный вес на нужные страницы

Капитал от внутренних ссылок - это специальный инструмент для повышения вашего SEO. Ваши самые эффективные страницы могут повысить доверие к вашим плохим и средним страницам в глазах Google.

Однако файлы robots.txt сообщают ботам, что они должны совершить поход, как только они достигнут страницы с директивой. Это означает, что они не следуют по ссылкам и не присваивают рейтинг этих страниц, если подчиняются вашему заказу.

У вас мощная ссылочная масса, и при правильном использовании robots.txt доля ссылок переходит на страницы, которые вы действительно хотите улучшить, а не на те, которые должны оставаться в фоновом режиме. Используйте файлы robots.txt только для тех страниц, для которых не требуется равенство ссылок на странице.

4. Назначьте инструкции сканирования для выбранных ботов

Даже в одной поисковой системе существует множество ботов. Помимо основного «робота Google», у Google есть сканеры, в том числе изображения для роботов Google, видео для роботов Google, AdsBot и другие.

Вы можете направлять роботов от файлов, которые не должны отображаться при поиске с помощью robots.txt. Например, если вы хотите заблокировать отображение файлов при поиске картинок Google, вы можете поместить директивы запрета в свои файлы изображений.

В личных каталогах robots.txt может препятствовать поисковым роботам, но помните, что он не защищает конфиденциальную и личную информацию.

Где найти файл robots.txt?

Теперь, когда вы знаете основы robots.txt и знаете, как использовать его в поисковой оптимизации, где вы можете увидеть его версию для своего сайта?

Простой метод просмотра, который работает для любого сайта, - это ввести URL домена в строку поиска браузера и добавить в конце /robots.txt. Это работает, потому что файл robots.txt всегда следует размещать в корневом каталоге веб-сайта.

Что делать, если вы не видите файл robots.txt?

Если файл robots.txt веб-сайта не отображается, возможно, он пуст или отсутствует в корневом каталоге (вместо этого возвращается ошибка 404). Время от времени проверяйте, можно ли найти файл robots.txt на вашем веб-сайте.

При использовании некоторых служб хостинга веб-сайтов, таких как WordPress или Wix, настройки сканирования часто выполняются за вас. Вам нужно будет указать, хотите ли вы, чтобы страница была скрыта от поисковых систем.

Станьте партнером WebFX, чтобы максимально использовать свой robots.txt

Лучшие практики

Robots.txt могут добавить к вашей стратегии SEO и помочь роботам поисковых систем перемещаться по вашему сайту. С помощью подобных технических приемов SEO вы можете улучшить работу своего веб-сайта и обеспечить его высокие позиции в результатах поиска.

WebFX - это ведущая SEO-компания, в которой работает более 150 профессионалов, которые вносят свой вклад в вашу кампанию. Наши услуги по поисковой оптимизации ориентированы на достижение результатов, и, учитывая, что за последние пять лет было привлечено более 4,6 миллиона потенциальных клиентов, становится ясно, что мы добиваемся результатов.

Заинтересованы в получении услуг SEO высочайшего качества для вашего бизнеса? Свяжитесь с нами онлайн или позвоните нам по телефону 888-601-5359 сейчас, чтобы поговорить с квалифицированным членом команды.

Robots.txt, Meta Robots, Canonicals и др.

Предоставляете ли вы поисковым системам разрешение на доступ, отображение и проверку ссылок, на которые вы ссылаетесь в рассматриваемом URL (сканирование определяется как «бот, сценарий или программа, которая посещает веб-страницу и берет с нее контент и ссылки »)? В случае Google сканирование обычно называется роботом Googlebot, за некоторыми исключениями.

Если страница не просканирована, она не будет проиндексирована и не будет отображаться в результатах поиска. Другими словами: SEO Step 1.

Вот (часто используемый) список поисковых роботов и их соответствующих пользовательских агентов по состоянию на август 2020 года (предположительно с точки зрения США):

Google Search:
Googlebot (Desktop ):
Googlebot

Googlebot (мобильный / смартфон): Googlebot (это мир, ориентированный на мобильные устройства, да ладно!)

Google Видео: Googlebot, Googlebot-Video

Google Images: Googlebot, Googlebot-Image

Новости Google: Googlebot-News

Мобильные приложения Android: Adsbot-Google-Mobile-Apps

AdsBot: AdsBot-Google

AdsBot Mobile: AdsBot-Google-Mobile

AdSense: MediaPartners-Google

Поиск Bing:
Bingbot: Bingbot

DuckDuckGo Search:
DuckDuckBot: DuckDuckBot

09 Baidu Search:
Baiduspider: Baiduspider

Яндекс Поиск:
Яндексбот: Яндексбот

«Индексирование»:

Даете ли вы разрешение поисковым системам для включать веб-сайт или конкретный URL в индекс поисковой системы (например,грамм. сайты, показанные в результатах поиска) ? В случае Google механизм индексирования называется Caffeine. Если / когда поисковая система решает включить вашу веб-страницу, она становится «проиндексированной».

AKA: SEO Step 2.

Совет для профессионалов: Важно понимать, что а) сканирование - это не то же самое, что индексирование, и б) эти процессы выполняются совершенно разными командами в Google. Таким образом, контроль одного по своей сути не влияет на другой.

Имея это в виду, вот руководство по наиболее распространенным инструментам и средствам управления поисковой системой, сканированием и индексированием, чтобы вы могли установить правильные инструкции для своего варианта использования и избежать распространенных проблем с индексированием.Они включают:

А как насчет «Рендеринга»?

Рендеринг - это вообще другое дело. Чтобы «отобразить» веб-страницу, ваш браузер (например, Chrome, Safari, IE, Firefox и т. Д.) Обработает весь HTML, JavaScript и CSS (например, код), чтобы создать макет и видимую страницу, которую вы просматриваете при просмотре. веб-сайт (вот лучшее, более подробное объяснение для тех, кто может быть заинтересован).

Это немного выходит за рамки нашего разговора, но важно помнить, что а) это еще один важный шаг и б) рендеринг очень сильно влияет на индексацию.

Чем больше работы требуется для визуализации чего-либо, тем меньше вероятность того, что оно будет ранжироваться (и / или тем более высокое качество и ценность должны быть / предоставлены, чтобы соответствовать критериям для ранжирования и высокого ранжирования. Популярность вашего бренда, и рассматриваемая страница (читается как: много обратных ссылок!) имеет намного большее значение в этой ситуации.) Проще говоря, чем усерднее вы заставляете Google работать над рейтингом вашего сайта, тем меньше вероятность, что они это сделают.

Это буквально полная противоположность техническому SEO, в рамках которого мы работаем, чтобы облегчить поисковым системам сканирование вашего сайта.Вот почему SPA SEO, JavaScript SEO и SEO рендеринга так важны.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *