Разное

Правильный роботс тхт: Настройка правильного файла robots.txt — SEO на vc.ru

10.05.2023

Содержание

Розробка та Створення Сайтів | Веб Cтудія ESFIRUM

Esfirum

Довічна гарантія на наші сайти

Професійна розробка сайтів, створення унікально веб-дизайну, розробка мобільних додатків, інтернет-маркетинг (контекстна реклама, SEO, SMM).
Ви отримаєте сайт, який на 100% сподобається вам і вашим клієнтам!

Отримати консультацію

Esfirum

Studio

Наша веб-студія 5 років спеціалізується на розробці сайтів, мобільних додатків та інтернет-маркетингу. Створимо сайт виходячи з ваших потреб та побажань.

UI/UX дизайн сайтів

Детальніше

Наш унікальний веб-дизайн, з правильною архітектурою, допоможе не тільки залучати та утримувати відвідувачів на сайті, але й продавати більшу кількість продуктів. Ваш бізнес стане більш конкурентоспроможним та прибутковим.

Розробка сайтів

Детальніше

Створення веб-сайтів з інтеграцією в CMS WordPress.

У роботі ми не використовуємо шаблони й темплейти. Завдяки цьому ваш сайт отримає високу швидкість завантаження та його легко можна буде просувати в пошукових системах.

Розробка додатків

Детальніше

Сьогодні мобільні пристрої використовують 80% людей по всьому світу. Ми надаємо послуги з розробки гібридних мобільних додатків для iOS і Android. Ви зможете взаємодіяти зі своїми клієнтами на їх улюблених мобільних пристроях.

Інтернет-маркетинг

Детальніше

Пошукове просування (SEO), SMM, контекстна реклама в Google Ads — напрямки в яких наша команда є експертами. Ми допоможемо вам залучити відвідувачів і клієнтів на сайт, збільшити продажі та поліпшити впізнаваність вашого бренду.

Переваги для клієнтів

Ставши клієнтом нашої веб-студії ви отримуєте не просто надійного партнера, а й додаткові, безкоштовні послуги від нашої команди

Отримати консультацію

Довічна гарантія

Довічна гарантія на наші сайти.
Ми перша веб-студія, яка дає довічну гарантію на свої веб-сайти. Ми впевнені в нашому продукті!

Домен і хостинг

Безкоштовно отримуєте домен і хостинг на 1 рік.

Домен в будь-якій доменній зоні. Розміщення сайту на хостингу веб-студії Esfirum. Перенесення сайту в подарунок!

Сертифікат безпеки (SSL)

Безкоштовно надаємо сертифікат безпеки (SSL) для вашого сайту. На 40% підвищує довіру користувачів до сайту.

Підтримка сайту 24/7

Безкоштовна підтримка вашого сайту протягом 4 місяців. Це дозволить робити косметичні зміни на сайті, змінювати кольори, картинки, шрифти.

Наші технології

Ми експерти в веб-технологіях, яких достатньо для створення повного і максимально функціонального веб-сайту для вашого бізнесу.

Наші нагороди

Our experience is backed by the awards we have received

Нагороди Honourable Mention и Mobile Excellence від авторитетного порталу Awwwards

ТОП-5 серед веб-студій Львова за версією порталу CMS-Magazine

2-е місце серед веб-студій м. Львова, за версією порталу IT-Rating

ТОП-10 серед PHP розробників за версією порталу Design Drizzle

Наша веб-студія на порталі goodfirms.com

Наша веб-студия на портале wadline.ru

Наша компанія є офіційним партнером модуля бронювання для готелів — Smart Planet

Наша гордість

Найкращі роботи

Дивитись все

клієнти про нас

Відгуки

Розробка та Створення Сайтів | Веб Cтудія ESFIRUM

Esfirum

Довічна гарантія на наші сайти

Професійна розробка сайтів, створення унікально веб-дизайну, розробка мобільних додатків, інтернет-маркетинг (контекстна реклама, SEO, SMM).
Ви отримаєте сайт, який на 100% сподобається вам і вашим клієнтам!

Отримати консультацію

Esfirum

Studio

Наша веб-студія 5 років спеціалізується на розробці сайтів, мобільних додатків та інтернет-маркетингу. Створимо сайт виходячи з ваших потреб та побажань.

UI/UX дизайн сайтів

Детальніше

Наш унікальний веб-дизайн, з правильною архітектурою, допоможе не тільки залучати та утримувати відвідувачів на сайті, але й продавати більшу кількість продуктів. Ваш бізнес стане більш конкурентоспроможним та прибутковим.

Розробка сайтів

Детальніше

Створення веб-сайтів з інтеграцією в CMS WordPress. У роботі ми не використовуємо шаблони й темплейти. Завдяки цьому ваш сайт отримає високу швидкість завантаження та його легко можна буде просувати в пошукових системах.

Розробка додатків

Детальніше

Сьогодні мобільні пристрої використовують 80% людей по всьому світу. Ми надаємо послуги з розробки гібридних мобільних додатків для iOS і Android. Ви зможете взаємодіяти зі своїми клієнтами на їх улюблених мобільних пристроях.

Інтернет-маркетинг

Детальніше

Пошукове просування (SEO), SMM, контекстна реклама в Google Ads — напрямки в яких наша команда є експертами. Ми допоможемо вам залучити відвідувачів і клієнтів на сайт, збільшити продажі та поліпшити впізнаваність вашого бренду.

Переваги для клієнтів

Ставши клієнтом нашої веб-студії ви отримуєте не просто надійного партнера, а й додаткові, безкоштовні послуги від нашої команди

Отримати консультацію

Довічна гарантія

Довічна гарантія на наші сайти.
Ми перша веб-студія, яка дає довічну гарантію на свої веб-сайти. Ми впевнені в нашому продукті!

Домен і хостинг

Безкоштовно отримуєте домен і хостинг на 1 рік. Домен в будь-якій доменній зоні. Розміщення сайту на хостингу веб-студії Esfirum. Перенесення сайту в подарунок!

Сертифікат безпеки (SSL)

Безкоштовно надаємо сертифікат безпеки (SSL) для вашого сайту.

На 40% підвищує довіру користувачів до сайту.

Підтримка сайту 24/7

Безкоштовна підтримка вашого сайту протягом 4 місяців. Це дозволить робити косметичні зміни на сайті, змінювати кольори, картинки, шрифти.

Наші технології

Ми експерти в веб-технологіях, яких достатньо для створення повного і максимально функціонального веб-сайту для вашого бізнесу.

Наші нагороди

Our experience is backed by the awards we have received

Нагороди Honourable Mention и Mobile Excellence від авторитетного порталу Awwwards

ТОП-5 серед веб-студій Львова за версією порталу CMS-Magazine

2-е місце серед веб-студій м.Львова, за версією порталу IT-Rating

ТОП-10 серед PHP розробників за версією порталу Design Drizzle

Наша веб-студія на порталі goodfirms.com

Наша веб-студия на портале wadline.ru

Наша компанія є офіційним партнером модуля бронювання для готелів — Smart Planet

Наша гордість

Найкращі роботи

Дивитись все

клієнти про нас

Відгуки

Руководство по использованию robots.

txt + примеры

Файл robots.txt часто упускают из виду, а иногда забывают о части веб-сайта и поисковой оптимизации.

Тем не менее, файл robots.txt является важной частью любого набора инструментов SEO, независимо от того, являетесь ли вы новичком в отрасли или опытным ветераном SEO.

Что такое файл robots.txt?

Файл robots.txt можно использовать для самых разных целей: от информирования поисковых систем, куда идти, чтобы найти карту сайта вашего сайта, до указания им, какие страницы сканировать, а какие нет, а также в качестве отличного инструмента для управления вашим сайтом. краулинговый бюджет сайтов.

Вы можете спросить себя: « подождите минутку, что такое краулинговый бюджет? ”Сканирующий бюджет — это то, что Google использует для эффективного сканирования и индексации страниц вашего сайта. Каким бы большим ни был Google, у них по-прежнему есть только ограниченное количество ресурсов, доступных для сканирования и индексации контента ваших сайтов.

Если на вашем сайте всего несколько сотен URL-адресов, Google сможет легко сканировать и индексировать страницы вашего сайта.

Однако, если ваш сайт большой, например, сайт электронной коммерции, и у вас есть тысячи страниц с большим количеством автоматически сгенерированных URL-адресов, Google может не просканировать все эти страницы, и вы потеряете много потенциального трафика и видимость.

Здесь важно расставить приоритеты, что, когда и сколько сканировать.

Google заявил, что « наличие большого количества URL-адресов с низкой добавленной стоимостью может негативно повлиять на сканирование и индексирование сайта. » Здесь файл robots.txt может помочь с факторами, влияющими на бюджет сканирования вашего сайта.

Вы можете использовать этот файл для управления бюджетом сканирования вашего сайта, убедившись, что поисковые системы тратят свое время на ваш сайт максимально эффективно (особенно если у вас большой сайт) и сканируют только важные страницы и не тратят впустую время на таких страницах, как вход, регистрация или страницы благодарности.

Зачем вам robots.txt?

Прежде чем робот, такой как Googlebot, Bingbot и т. д., просканирует веб-страницу, он сначала проверит, существует ли на самом деле файл robots.txt, и, если он существует, они обычно будут следовать и соблюдать указания, указанные в нем. этот файл.

Файл robots.txt может быть мощным инструментом в арсенале любого SEO-специалиста, поскольку это отличный способ контролировать, как сканеры/боты поисковых систем получают доступ к определенным областям вашего сайта. Имейте в виду, что вы должны быть уверены, что понимаете, как работает файл robots.txt, иначе вы случайно запретите Googlebot или любому другому боту сканировать весь ваш сайт, и он не будет найден в результатах поиска!

Ресурсы

Но если все сделано правильно, вы можете контролировать такие вещи, как:

  1. Блокирование доступа к целым разделам вашего сайта (среда разработки и промежуточной среды и т. д.)
  2. Предотвращение сканирования, индексации или отображения страниц результатов внутреннего поиска вашего сайта в результатах поиска.
  3. Указание местоположения вашей карты сайта или карт сайта
  4. Оптимизация краулингового бюджета путем блокировки доступа к страницам с низкой ценностью (вход в систему, спасибо, корзины покупок и т. д.)
  5. Предотвращение индексации определенных файлов на вашем веб-сайте (изображений, PDF-файлов и т. д.)

Robots.txt Examples

Ниже приведены несколько примеров того, как вы можете использовать файл robots.txt на своем сайте.

Разрешение всем веб-краулерам/роботам доступа ко всему содержимому ваших сайтов:

 User-agent: *
Disallow: 

Блокировка всех поисковых роботов/роботов на всех ваших сайтах:

 User-agent: *
Disallow: / 

Вы можете видеть, как легко сделать ошибку при создании ваших сайтов robots.txt, поскольку отличие от блокировки всего вашего сайта от просмотра заключается в простой косой черте в директиве запрета (Disallow: /).

Блокировка определенных веб-сканеров/ботов из определенной папки:

 Агент пользователя: Googlebot
Disallow: / 

Блокировка поисковых роботов/роботов на определенной странице вашего сайта:

 User-agent:
Disallow: /thankyou.
html

Исключить всех роботов из части сервера:

 User-agent: *
Запретить: /cgi-bin/
Запретить: /tmp/
Disallow: /junk/ 

Вот пример того, как выглядит файл robots.txt на сайте theverge.com:

Файл примера можно посмотреть здесь: www.theverge.com/robots.txt

Вы можете увидеть, как The Verge использует свой файл robots.txt для специального вызова новостного бота Google «Googlebot-News», чтобы убедиться, что он не сканирует эти каталоги на сайте.

Важно помнить, что если вы хотите убедиться, что бот не сканирует определенные страницы или каталоги на вашем сайте, вы должны указать эти страницы или каталоги в объявлениях «Запретить» в файле robots.txt. , как в приведенных выше примерах.

Вы можете просмотреть, как Google обрабатывает файл robots.txt в своем руководстве по спецификациям robots.txt, у Google есть текущий предел максимального размера файла robots.txt, максимальный размер для Google установлен на уровне 500 КБ, поэтому важно помните о размере файла robots. txt вашего сайта.

Как создать файл robots.txt

Создание файла robots.txt для вашего сайта — довольно простой процесс, но в нем легко ошибиться. Не позволяйте этому отговорить вас от создания или изменения файла robots для вашего сайта. Эта статья от Google проведет вас через процесс создания файла robots.txt и должна помочь вам научиться создавать собственный файл robots.txt.

Когда вы освоитесь с созданием или изменением файла robots вашего сайта, у Google есть еще одна замечательная статья, в которой объясняется, как проверить файл robots.txt вашего сайта, чтобы убедиться, что он настроен правильно.

Проверка наличия файла robots.txt

Если вы не знакомы с файлом robots.txt или не уверены, есть ли он на вашем сайте, вы можете быстро проверить его. Все, что вам нужно сделать, чтобы проверить, это перейти в корневой домен вашего сайта, а затем добавить /robots.txt в конец URL-адреса. Пример: www.yoursite.com/robots. txt

Если ничего не отображается, значит у вас нет файла robots.txt для вашего сайта. Сейчас самое подходящее время, чтобы приступить к работе и попробовать создать его для своего сайта.

Передовой опыт:
  1. Убедитесь, что все важные страницы доступны для сканирования, а контент, который не представляет реальной ценности в случае обнаружения в поиске, заблокирован.
  2. Не блокируйте файлы JavaScript и CSS на своих сайтах
  3. Всегда выполняйте быструю проверку файла, чтобы убедиться, что ничего не изменилось случайно
  4. Правильное использование заглавных букв в именах каталогов, подкаталогов и файлов
  5. Поместите файл robots.txt в корневой каталог вашего веб-сайта, чтобы его можно было найти
  6. Файл robots.txt чувствителен к регистру, файл должен называться «robots.txt» (без других вариантов)
  7. Не используйте файл robots.txt, чтобы скрыть личную информацию о пользователе, так как она все равно будет видна
  8. Добавьте местоположение карты сайта в файл robots. txt.
  9. Убедитесь, что вы не блокируете какой-либо контент или разделы вашего веб-сайта, которые вы хотите просканировать.

На что следует обратить внимание:

Если на вашем сайте есть субдомен или несколько субдоменов  , вам потребуется файл robots.txt для каждого субдомена, а также для основного корня. домен. Это будет выглядеть примерно так: store.yoursite.com/robots.txt, и yoursite.com/robots.txt.

Как упоминалось выше в разделе « лучших практик », важно помнить, что нельзя использовать файл robots.txt для предотвращения сканирования конфиденциальных данных, таких как личная информация пользователя, и их появления в результатах поиска.

Причина этого в том, что возможно, что другие страницы могут ссылаться на эту информацию, и если есть прямая обратная ссылка, она будет обходить правила robots.txt, и этот контент все равно может быть проиндексирован. Если вам нужно заблокировать действительное индексирование ваших страниц в результатах поиска, используйте другой метод, например, добавление защиты паролем или добавление метатега noindex к этим страницам. Google не может войти на защищенный паролем сайт/страницу, поэтому они не смогут сканировать или индексировать эти страницы.

Заключение

Хотя вы можете немного нервничать, если вы никогда раньше не работали с файлом robots.txt, будьте уверены, что он довольно прост в использовании и настройке. Как только вы освоитесь со всеми тонкостями файла robots, вы сможете улучшить SEO своего сайта, а также помочь посетителям вашего сайта и ботам поисковых систем.

Правильно настроив файл robots.txt, вы поможете ботам поисковых систем разумно расходовать краулинговые бюджеты и убедитесь, что они не тратят впустую свое время и ресурсы на сканирование ненужных страниц. Это поможет им наилучшим образом организовать и отобразить контент вашего сайта в поисковой выдаче, что, в свою очередь, означает, что вы будете более заметны.

Имейте в виду, что настройка файла robots.txt не обязательно требует много времени и усилий. По большей части это одноразовая настройка, которую вы можете затем внести в нее небольшими настройками и изменениями, чтобы улучшить свой сайт.

Я надеюсь, что приемы, советы и предложения, описанные в этой статье, помогут вам обрести уверенность при создании/изменении файла robots.txt вашего сайта и в то же время помогут вам плавно пройти через этот процесс.

Майкл Макманус — руководитель практики Earned Media (SEO) в iProspect.

Подробнее о:

    Руководство по Robots.txt — все, что нужно знать специалистам по поисковой оптимизации

    Рэйчел Костелло

    SEO и Content Manager

    Давайте поделимся

    В этом разделе нашего руководства по директивам robots.txt мы более подробно расскажем о текстовом файле robots. txt и о том, как его можно использовать для управления поиском. поисковые роботы двигателя. Этот файл особенно полезен для управление краулинговым бюджетом и обеспечение того, чтобы поисковые системы эффективно проводили время на вашем сайте и сканировали только важные страницы.

     

    Для чего используется текстовый файл robots?

    Файл robots.txt указывает сканерам и роботам, какие URL-адреса на вашем веб-сайте им не следует посещать. Это важно, чтобы помочь им избежать сканирования некачественных страниц или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес на каждый день.

    Как объясняет Google в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом, закодированным в UTF-8. Записи файла (или строки) должны быть разделены символами CR, CR/LF или LF.

    Следует помнить о размере файла robots.txt, так как у поисковых систем есть собственные ограничения максимального размера файла. Максимальный размер для Google составляет 500 КБ.

     

    Где должен находиться файл robots.txt?

    Файл robots.txt всегда должен находиться в корне домена, например:

    Этот файл относится к протоколу и полному домену, поэтому robots.txt на https://www.example.com не влияет на сканирование https://www.example.com или https ://subdomain.example.com ; у них должны быть свои собственные файлы robots.txt.

     

    Когда следует использовать правила robots.txt?

    Как правило, веб-сайты должны стараться использовать файл robots.txt как можно меньше для контроля сканирования. Гораздо лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Однако рекомендуется использовать robots. txt там, где это необходимо для предотвращения доступа сканеров к некачественным разделам сайта, если эти проблемы не могут быть устранены в краткосрочной перспективе.

    Google рекомендует использовать robots.txt только в случае возникновения проблем с сервером или проблем с эффективностью сканирования, например, когда робот Googlebot тратит много времени на сканирование неиндексируемого раздела сайта.

    Некоторые примеры страниц, сканирование которых нежелательно:

    • Страницы категорий с нестандартной сортировкой , так как это обычно создает дублирование со страницей основной категории
    • Пользовательский контент , который не может модерироваться
    • Страницы с конфиденциальной информацией
    • Страницы внутреннего поиска , так как может быть бесконечное количество этих страниц результатов, что ухудшает взаимодействие с пользователем и приводит к трате краулингового бюджета

     

    Когда не следует использовать robots.

    txt ?

    Файл robots.txt — полезный инструмент при правильном использовании, однако бывают случаи, когда это не лучшее решение. Вот несколько примеров, когда не следует использовать файл robots.txt для управления сканированием:

    1. Блокировка Javascript/CSS

    Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте для правильного отображения страниц, что является необходимой частью поддержания высокого рейтинга. Файлы JavaScript, которые резко изменяют взаимодействие с пользователем, но не могут быть просканированы поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

    Например, если вы показываете межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не имеет доступа, это может рассматриваться как маскировка, и рейтинг вашего контента может быть скорректирован соответствующим образом.

    2. Блокировка параметров URL

    Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, так как там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

    Вы также можете поместить информацию во фрагмент URL-адреса ( /page#sort=price ), так как поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel=nofollow, чтобы сканеры не пытались получить к нему доступ.

    3. Блокировка URL-адресов с обратными ссылками

    Запрет URL-адресов в файле robots.txt предотвращает передачу ссылочного капитала на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитета, который проходят эти ссылки, и, как следствие, ваш общий рейтинг может ухудшиться.

    4. Деиндексация проиндексированных страниц

    Использование Disallow не приводит к деиндексации страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексации в значительной степени разделены.

    Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети могли получить доступ к этим страницам, чтобы можно было создать фрагмент страницы. Например, Facebook попытается посетить каждую страницу, которая публикуется в сети, чтобы предоставить соответствующий фрагмент. Учитывайте это при настройке правил robots.txt.

    6. Блокировка доступа с промежуточных сайтов или сайтов разработки

    Использование файла robots.txt для блокировки всего промежуточного сайта — не лучшая практика. Гугл рекомендует не индексирует страницы, но позволяет их сканировать, но в целом лучше сделать сайт недоступным из внешнего мира.

    7. Когда вам нечего блокировать

    Некоторые веб-сайты с очень чистой архитектурой не нуждаются в блокировке поисковых роботов на любых страницах. В этой ситуации вполне допустимо не иметь файла robots. txt и возвращать статус 404 по запросу.

     

    Синтаксис и форматирование robots.txt

    Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте рассмотрим стандартизированный синтаксис и правила форматирования, которых следует придерживаться. при написании файла robots.txt.

    Комментарии – это строки, полностью игнорируемые поисковыми системами и начинающиеся с # . Они существуют для того, чтобы вы могли писать заметки о том, что делает каждая строка вашего файла robots.txt, почему она существует и когда она была добавлена. В общем, рекомендуется документировать назначение каждой строки вашего файла robots.txt, чтобы его можно было удалить, когда он больше не нужен, и не изменять, пока он все еще необходим.

    Указание агента пользователя

    Блок правил может быть применен к определенным агентам пользователя с помощью « User-agent ” директива. Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно добиться, указав токен пользовательского агента, к которому применяется набор правил.

    У каждого поискового робота есть собственный токен пользовательского агента, который используется для выбора совпадающих блоков.

    Сканеры будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем вернутся к более общим правилам, если точное совпадение не будет найдено. Например, Googlebot News будет искать совпадение « googlebot-news ’, затем ‘ googlebot ’, затем ‘ * ’.

    Вот некоторые из наиболее распространенных токенов агента пользователя, с которыми вы столкнетесь:

    • * — правила применяются к каждому боту, если нет более конкретного набора правил
    • Googlebot — все поисковые роботы Google
    • Googlebot-News – Поисковый робот для новостей Google
    • Googlebot-Image – Поисковый робот для изображений Google
    • Mediapartners-Google – Google Adsense crawler
    • Bingbot – Bing’s crawler
    • Yandex – Yandex’s crawler
    • Baiduspider – Baidu’s crawler
    • Facebot – Facebook’s crawler
    • Twitterbot – Twitter’s crawler

    This list токенов пользовательского агента ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, взгляните на документацию, опубликованную Google , Bing , Yandex , Baidu , Facebook и Twitter .

    При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

    URL-адреса, соответствующие шаблону

    У вас может быть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL-адресов, которые необходимо исключить в файле robots.txt.

    Чтобы уточнить URL-адреса, вы можете использовать символы * и $. Вот как они работают:

    • * — это подстановочный знак, представляющий любое количество любых символов. Он может быть в начале или в середине URL-адреса, но не обязателен в конце. Вы можете использовать несколько подстановочных знаков в строке URL, например, « Disallow: */products?*sort= ». Правила с полными путями не должны начинаться с подстановочного знака.
    • $ — этот символ означает конец строки URL-адреса, поэтому « Disallow: */dress$ » будет соответствовать только URL-адресам, оканчивающимся на « / dress », а не на « / dress?parameter ».

    Стоит отметить, что правила robots.txt чувствительны к регистру, а это означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *?search= »), роботы все равно могут сканировать URL-адреса с другими заглавными буквами, например « ?Search=anything ».

    Правила директивы соответствуют только путям URL и не могут включать протокол или имя хоста. Косая черта в начале директивы соответствует началу пути URL. Например. Disallow: /starts » будет соответствовать www.example.com/starts .

    Если вы не добавите совпадение директивы start a с / или * , оно не будет соответствовать чему-либо. Например. « Disallow: запускает » никогда не будет соответствовать чему-либо.

    Чтобы наглядно представить, как работают различные правила URL-адресов, мы собрали для вас несколько примеров:

    Robots.txt Ссылка на карту сайта

    Директива карты сайта в файле robots. txt сообщает поисковым системам, где найти XML-карту сайта, что помогает им обнаружить все URL-адреса на веб-сайте. Чтобы узнать больше о картах сайта, ознакомьтесь с нашими руководство по аудиту карты сайта и расширенной настройке .

    При включении карт сайта в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL-адресов (например, /sitemap.xml .) Это также стоит отметить, что карты сайта не обязательно должны находиться в одном корневом домене, они также могут размещаться на внешнем домене.

    Поисковые системы обнаружат и могут сканировать карты сайта, указанные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

     

    Robots.txt блокирует

    Правило «запретить» в файле robots.txt можно использовать несколькими способами для разных пользовательских агентов. В этом разделе мы рассмотрим несколько различных способов форматирования комбинаций блоков.

    Важно помнить, что директивы в файле robots.txt — это только инструкции. Вредоносные сканеры будут игнорировать ваш файл robots.txt и сканировать любую общедоступную часть вашего сайта, поэтому не следует использовать запрет вместо надежных мер безопасности.

    Несколько блоков пользовательских агентов

    Вы можете сопоставить блок правил с несколькими пользовательскими агентами, перечислив их перед набором правил, например, следующие правила запрета будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

    Агент пользователя: googlebot
    Агент пользователя: bing
    Запретить: /a

    Интервал между блоками директив

    Google будет игнорировать пробелы между директивами и блоками. В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:

    [код]
    User-agent: *
    Disallow: /disallowed/

    Disallow: /test1/robots_excluded_blank_line
    [/code]

    Во втором примере Googlebot-mobile унаследует те же правила, что и Bingbot5:

    [код]
    Агент пользователя: googlebot-mobile

    Агент пользователя: bing
    Запретить: /test1/deepcrawl_excluded
    [/код]

    Объединение отдельных блоков

    Объединение нескольких блоков с одним и тем же агентом пользователя. Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « /b » и «/a ».

    Пользовательский агент: GoogleBot
    DISLOWALLY: /B

    Пользовательский агент: Bing
    DISLAULIDE: /A

    Пользовательский агент: Googlebot
    DISLAING: /A

    ROBOTS.TXT. Попустя

    . Правило .txt «разрешить» явно разрешает сканирование определенных URL-адресов. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи правила запрета. Например, если «

    /locations » запрещен, вы можете разрешить сканирование « /locations/london », имея специальное правило « Разрешить: /locations/london ».

     

    Приоритезация файла robots.txt

    Если к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется правило с самым длинным соответствием. Давайте посмотрим, что произойдет для URL « /home/search/shirts » со следующими правилами:

    Запретить: /home
    Разрешить: *search/*
    Запретить: *shirts

    В этом случае, URL-адрес разрешен для обхода, поскольку правило разрешения имеет 9символов, в то время как правило запрета имеет только 7. Если вам нужно разрешить или запретить конкретный URL-адрес, вы можете использовать *, чтобы сделать строку длиннее. Например:

    Disallow: *******************/shirts

    одинаковой длины, последует запрет. Например, URL « /search/shirts » будет запрещен в следующем сценарии:

    Запретить: /search
    Разрешить: *shirts

     

    Директивы robots.txt

    Директивы уровня страницы (которые мы рассмотрим позже в этом руководстве) — отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны просканировать страницу, прежде чем будут в состоянии прочитать эти инструкции, которые могут расходовать краулинговый бюджет.

    Директивы robots.txt могут помочь уменьшить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем предпринимать какие-либо действия. Это решение намного быстрее и проще в управлении.

    Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том смысле, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

    Robots.txt noIndex

    Robots.txt noindex — это полезный инструмент для управления индексацией в поисковых системах без использования краулингового бюджета. Запрет страницы в robots.txt не означает ее удаление из индекса, поэтому директиву noindex гораздо эффективнее использовать для этой цели.

    Google официально не поддерживает robots.txt noindex, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен, и его следует использовать в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексом, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые доказывают, что функция работает эффективно.

    Вот пример использования файла robots.txt noindex:

    [код]
    Агент пользователя: *
    NoIndex: /directory
    NoIndex: /*?*sort=
    [/code]

    Помимо noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам индексации, когда они помещается в файл robots.txt. Важно отметить, что не все поисковые системы и краулеры поддерживают эти директивы, а те, которые поддерживают, могут перестать их поддерживать в любое время — не стоит полагаться на их постоянную работу.

     

    Распространенные проблемы с файлом robots.txt

    Существует ряд ключевых проблем и соображений относительно файла robots. txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, сможете избежать.

    1. Иметь резервный блок правил для всех ботов — Использование блоков правил для конкретных строк пользовательского агента без резервного блока правил для всех остальных ботов означает, что ваш веб-сайт в конечном итоге столкнется с ботом, у которого нет наборов правил. следить.
    2. I Важно, чтобы файл robots.txt обновлялся . Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальном этапе разработки веб-сайта, но не обновляется по мере роста веб-сайта, что означает, что потенциально полезные страницы запрещены.
    3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса.0004 — Веб-мастера могут ожидать, что часть веб-сайта не будет просканирована, но эти страницы могут быть просканированы из-за альтернативных регистров, т. е. «Disallow: /admin» существует, но поисковые системы сканируют « /ADMIN ».
    4. Не запрещать URL-адреса с обратными ссылками — Это предотвращает попадание PageRank на ваш сайт от других, которые ссылаются на вас.
    5. Задержка сканирования может вызвать проблемы с поиском — Директива « Crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем оптимально. Этой директиве не следуют ни Google, ни Baidu, но поддерживают Bing и Яндекс.
    6. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт недоступен. — Возврат кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что позже они снова попытаются просканировать веб-сайт.
    7. Запрет Robots.txt переопределяет инструмент удаления параметров . Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
    8. Разметка окна поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска. — страницы внутреннего поиска на сайте не должны быть доступными для сканирования, чтобы разметка поля поиска дополнительных ссылок работала.
    9. Запрет переноса домена повлияет на успех переноса — Если вы запретите перенос домена, поисковые системы не смогут отслеживать какие-либо перенаправления со старого сайта на новый, поэтому миграция маловероятна. быть успешным.

     

    Testing & Auditing Robots.txt

    Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы не обрабатываются должным образом, существует несколько способов проверить его, чтобы убедиться, что он настроен правильно. . Взгляните на это руководство о том, как проверять URL-адреса, заблокированные robots.txt , а также на следующие примеры:

    • Используйте Lumar — отчеты Disallowed Pages и Disallowed URLs (Uncrawled) в Lumar can показать вам, какие страницы заблокированы от поисковых систем вашим файлом robots.txt.
    • Используйте Google Search Console . С помощью инструмента тестирования GSC robots.txt вы можете увидеть последнюю кэшированную версию страницы, а также использовать инструмент Fetch and Render для просмотра рендеринга из пользовательского агента Googlebot, а также пользовательский агент браузера. На что обратить внимание: GSC работает только с пользовательскими агентами Google, и можно протестировать только отдельные URL-адреса.
    • Попробуйте объединить информацию, полученную с помощью обоих инструментов, путем выборочной проверки запрещенных URL-адресов, отмеченных Lumar в инструменте тестирования GSC robots. txt, чтобы прояснить конкретные правила, которые приводят к запрету.

     

    Мониторинг изменений robots.txt

    Когда над сайтом работает много людей, и с проблемами, которые могут возникнуть, если хотя бы один символ не на месте в файле robots.txt, постоянно мониторинг ваших robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

    • Проверьте Google Search Console, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, так что это единственный способ увидеть именно то, что видит Google.
    • Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает установленного Google ограничения размера в 500 КБ.
    • Перейдите к отчету о состоянии индекса Google Search Console в расширенном режиме, чтобы сверить изменения robots. txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
    • Запланируйте регулярное сканирование с помощью Lumar, чтобы постоянно видеть количество запрещенных страниц на вашем сайте и отслеживать изменения.

    Далее: Директивы о роботах на уровне URL


     

    Полное руководство по работе поисковых систем:

    Как работают поисковые системы?

    Как поисковые системы сканируют веб-сайты

    Как работает индексация в поисковых системах?

    Каковы различия между поисковыми системами?

    Что такое краулинговый бюджет?

    Что такое Robots.txt? Как robots.txt используется поисковыми системами?

    Руководство по директивам robots.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *