Ошибки, часто встречающиеся в файле robots.txt — Robots.Txt по-русски
Непосредственно ошибки
Перепутанные инструкции
Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:
User-agent: /
Disallow: Yandex
Правильно писать вот так:
User-agent: Yandex
Disallow: /
Указание нескольких каталогов в одной инструкции Disallow
Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.
Disallow: /css/ /cgi-bin/ /images/
Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.
Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Имя файла содержит заглавные буквы
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt
Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent
Так неправильно:
User-agent:
Disallow:
Так правильно:
User-agent: *
Disallow:
Url в директиве Host
Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/
Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки
Иногда хочется написать что-то вроде:
User-agent: *
Disallow: file*.html
для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями
По стандарту, такая запись вполне возможна:
Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin
В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:
Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль
USER-AGENT: GOOGLEBOT
DISALLOW:
Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.
User-agent: googlebot
Disallow:
Перечисление всех файлов
Еще одной ошибкой является перечисление каждого файла в директории:
User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Вместо этого можно просто закрыть от индексации директорию целиком:
User-agent: *
Disallow: /AL/
Disallow: /Az/
Инструкции Allow не существует! [перевод устаревший]
Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow
Так неправильно:
User-agent: Yandex
Disallow: /john/
Allow: /jane/
А вот так – правильно:
User-agent: Yandex
Disallow: /john/
Disallow:
Использование дополнительных директив в секции *
Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».
Так неправильно:
User-agent: *
Disallow: /css/
Host: www.example.com
А вот так – правильно:
User-agent: *
Disallow: /css/User-agent: Yandex
Disallow: /css/
Host: www.example.com
Отсутствие инструкции Disallow
Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».
Так неправильно:
User-agent: Yandex
Host: www.example.com
Так правильно:
User-agent: Yandex
Disallow:
Host: www.example.com
Обсуждение этого вопроса на Searchengines.ru
Отсутствие слешей при указании директории
Как в этом случае поступит робот?
User-agent: Yandex
Disallow: john
По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:
User-agent: Yandex
Disallow: /john/
Неправильный http-заголовок
Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.
Файл robots txt — основные директивы и инструкция по редактированию в Нубексе
Для сайтов, работающих на платформе «Нубекс», файл с директивами создается автоматически и располагается по адресу domen.ru/robots.txt, где domen.ru — доменное имя сайта. Например, с содержанием файла для сайта nubex.ru можно ознакомиться по адресу nubex.ru/robots.txt.
Изменить robots.txt и прописать дополнительные директивы для поисковиков можно в админке сайта. Для этого на панели управления выберите раздел
Найдите поле «Текст файла robots.txt» и пропишите в нем нужные директивы. Желательно активировать галочку «Добавить в robots.txt ссылку на автоматически генерируемый файл sitemap.xml»: так поисковый бот сможет загрузить карту сайта и найти все необходимые страницы для индексации.
Не забудьте сохранить страницу после внесения необходимых изменений.
Основные директивы для файла robots txt
Загружая robots.txt, поисковый робот первым делом ищет запись, начинающуюся с User-agent: значением этого поля должно являться имя робота, которому в этой записи устанавливаются права доступа. Т.е. директива User-agent — это своего рода обращение к роботу.
1. Если в значении поля User-agent указан символ «*», то заданные в этой записи права доступа распространяются на любых поисковых роботов, запросивших файл /robots.txt.
2. Если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
3. Заглавные или строчные символы роли не играют.
4. Если обнаружена строка User-agent: ИмяБота, директивы для User-agent: * не учитываются (это в том случае, если вы делаете несколько записей для различных роботов). Т.е. робот сначала просканирует текст на наличие записи User-agent: МоеИмя, и если найдет, будет следовать этим указаниям; если нет — будет действовать по инструкциям записи User-agent: * (для всех ботов).
Кстати, перед каждой новой директивой User-agent рекомендуется вставлять пустой перевод строки (Enter).
5. Если строки User-agent: ИмяБота и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.
Запрет и разрешение индексации сайта: директивы Disallow и Allow
Чтобы запретить или разрешить поисковым ботам доступ к определенным страницам сайта, используются директивы Disallow и Allow соответственно.
В значении этих директив указывается полный или частичный путь к разделу:
- Disallow: /admin/ — запрещает индексацию всех страниц, находящихся внутри раздела admin;
- Disallow: /help — запрещает индексацию и /help.html, и /help/index.html;
- Disallow: /help/ — закрывает только /help/index.html;
- Disallow: / — блокирует доступ ко всему сайту.
Если значение Disallow не указано, то доступ не ограничен:
- Disallow: — разрешена индексация всех страниц сайта.
Для настройки исключений можно использовать разрешающую директиву Allow. Например, такая запись запретит роботам индексировать все разделы сайта, кроме тех, путь к которым начинается с /search:
User-agent: *
Allow: /search
Disallow: /
Неважно, в каком порядке будут перечислены директивы запрета и разрешения индексации. При чтении робот все равно рассортирует их по длине префикса URL (от меньшего к большему) и применит последовательно. То есть пример выше в восприятии бота будет выглядеть так:
User-agent: *
Disallow: /
Allow: /search
— разрешено индексировать только страницы, начинающиеся на /search. Таким образом, порядок следования директив никак не повлияет на результат.
Директива Host: как указать основной домен сайта
Если к вашему сайту привязано несколько доменных имен (технические адреса, зеркала и т.д.), поисковик может решить, что все это — разные сайты. Причем с одинаковым наполнением. Решение? В бан! И одному боту известно, какой из доменов будет «наказан» — основной или технический.
Чтобы избежать этой неприятности, нужно сообщить поисковому роботу, по какому из адресов ваш сайт участвует в поиске. Этот адрес будет обозначен как основной, а остальные сформируют группу зеркал вашего сайта.
Сделать это можно с помощью директивы Host. Ее нужно добавить в запись, начинающуюся с User-Agent, непосредственно после директив Disallow и Allow. В значении директивы Host нужно указать основной домен с номером порта (по умолчанию 80). Например:
User-Agent: *
Disallow:
Host: test-o-la-la.ru
Такая запись означает, что сайт будет отображаться в результатах поиска со ссылкой на домен test-o-la-la.ru, а не www.test-o-la-la.ru и s10364.nubex.ru (см. скриншот выше).
В конструкторе «Нубекс» директива Host добавляется в текст файла robots.txt автоматически, когда вы указываете в админке, какой домен является основным.
В тексте robots.txt директива host может использоваться только единожды. Если вы пропишите ее несколько раз, робот воспримет только первую по порядку запись.
Директива Crawl-delay: как задать интервал загрузки страниц
Чтобы обозначить роботу минимальный интервал между окончанием загрузки одной страницы и началом загрузки следующей, используйте директиву Crawl-delay. Ее нужно добавить в запись, начинающуюся с User-Agent, непосредственно после директив Disallow и Allow. В значении директивы укажите время в секундах.
User-Agent: *
Disallow:
Crawl-delay: 3
Использование такой задержки при обработке страниц будет удобным для перегруженных серверов.
Существуют также и другие директивы для поисковых роботов, но пяти описанных — User-Agent, Disallow, Allow, Host и Crawl-delay — обычно достаточно для составления текста файла robots.txt.
Robots.txt
robots.txt (Роботс) – текстовый файл, который представляет собой один из способов регулирования индексации сайта поисковыми системами. Размещается в основном каталоге с сайтом.
Сведения и принцип работы Robots
Поисковой робот попадает на сайт и обращается к файлу Robots.txt, после анализа этого файла он получает информацию о том, какие категории (папки, разделы, страницы) веб-сайта нужно проигнорировать, а также предоставляет информацию о существующих динамичных параметрах в URL и расположении XML-карты сайта.
Данный файл позволяет убрать из поиска дубли страниц, страницы ошибок и улучшить не только позиции сайта, но и комфортность для пользователя в использовании интернет-ресурсов.
Для создания robots.txt достаточно воспользоваться любым текстовым редактором и создать файл с таким именем. Его необходимо заполнить в соответствии с определенными правилами и загрузить в корневой каталог сайта.
Директива User-agent
Управлять доступом к сайту робота Яндекса можно при помощи созданного файла.
В robots.txt проверяется наличие записей, начинающихся с ‘User-agent:’. В них осуществляется поиск подстроки ‘Yandex’, либо ‘*’.
Пример:
# будет использоваться только основным индексирующим роботом User-agent: YandexBot Disallow: /*id= # будет использована всеми роботами Яндекса, кроме основного индексирующего User-agent: Yandex Disallow: /*sid= # не будет использована роботами Яндекса User-agent: * Disallow: /cgi-bin
Директива Disallow
Для запрета доступа робота к сайту целиком или его частям используется директива ‘Disallow’.
Примеры:
# Пример запрета индексации сайта для поисковой системы Яндекс User-agent: Yandex Disallow: / # Пример запрета индексации страниц, начинающихся с /cgi-bin User-agent: Yandex Disallow: /cgi-bin
Директива Host
При наличии зеркала у сайта специальный робот определит их и сформирует в особую группу. В поиске будет участвовать лишь главное зеркало. В robots.txt вы можете указать имя такого зеркала. Им должно стать значение директивы ‘Host’.
Пример:
# Если www.glavnoye-zerkalo.ru - главное зеркало сайта, то robots.txt # для всех сайтов из группы зеркал выглядит так User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru
Директива Host должна включать следующие части:
- указание на HTTPS в случае, если зеркало доступно по защищенному каналу;
- корректное доменное имя (одно), не являющееся IP-адресом;
- номер порта (при необходимости).
robots.txt | Вопросы-ответы на Wiki
Директивы, указанные в файле robots.txt
, являются лишь рекомендациями для ботов, они не гарантируют их выполнение отдельными сервисами.
Файл robots.txt
состоит из групп правил, которые определяют поведение роботов на сайте.
Важные моменты:
Каждая группа может содержать несколько одинаковых правил. К примеру, это удобно для указания нескольких роботов или страниц.
Группа правил должна быть в следующем порядке и состоять из указанных директив:
User-agent
— обязательная директива, может быть указана множество раз в одной группе правил.Disallow
иAllow
— обязательные директивы. Как минимум одна из них должна быть указана в каждой группе правил.Host
,Crawl-delay
,Sitemap
— необязательные директивы.
Для указания регулярных выражений используются:
Стоит учитывать, что указываемые в правилах адреса или имена чувствительны к регистру. Указание Example
и example
будет давать разный результат.
Директива User-agent
определяет имя робота, на которого будет распространяться правило. Для указания всех роботов можно использовать:
User-agent: *
Если данная директива будет указана с определенным именем робота — правило с *
будет проигнорировано.
Указанные директивы разрешат доступ роботу с именем Googlebot
и запретят остальным:
User-agent: * Dissalow: / User-agent: Googlebot Dissalow:
Директива Disallow
определяет страницы, к которым запрещён доступ роботов.
Запретить доступ ко всему сайту можно, указав:
Dissalow: /
Запрет к отдельным страницам можно указать так:
Dissalow: /admin
При указании /admin
доступ будет запрещён к каталогу admin
и файлам с таким именем, например admin.php
и admin.html
. Для запрета доступа только к каталогу можно указать /admin/
.
Директива Allow
определяет страницы, к которым запрещён доступ роботов. Директива используется для создания исключений при указании Disallow
.
Следующее правило указывает заблокировать для робота Googlebot
весь сайт, кроме каталога pages
:
User-agent: Googlebot Disallow: / Allow: /pages/
Директива Host
определяет основной домен сайта. Директива полезна, если к сайту привязано несколько доменных имён и для корректной поисковой индексации, таким образом, можно указать, какой домен будет являться основным, чтобы остальные домены были определены как зеркала, технические адреса и т. д.
Пример использования директивы в рамках сайта с доменами example.com
и domain.com
, где для всех роботов example.com
будет основным доменом:
User-agent: * Disallow: Host: domain.com
Директива Crawl-delay
определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Данная директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.
Пример использования:
User-Agent: * Disallow: Crawl-delay: 3
Директива Sitemap
определяет URL-адрес файла sitemap на сайте. Данная директива может быть указана множество раз. Указание адреса должно быть обязательно в формате протокол://адрес/путь/к/sitemap
.
Пример использования:
Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xmlДля реализации существующий файл
robots.txt
должен быть удалён, а также в настройках сайта должен быть установлен параметр «Передавать запросы на бекенд в случае, если файл не найден» или расширение txt
должно быть удалено из статических файлов.robots\.txt$ %{HTTP_HOST}-robots.txt [L]Проверьте вывод правил по каждому из доменов.
Robots.txt директивы и настройки индексации сайта
Файл robots.txt — это один из основных способов сообщить поисковой системе
, к каким частям сайта она может получить доступ, а к каким нет. Данное руководство охватывает практически все возможные нюансы, связанные с robots.txt. Несмотря на то, что настройка файла robots.txt выглядит простой и незамысловатой, все-таки ошибки в нем могут нанести серьезный вред сайту.
Что такое файл robots.txt?
Robots.txt — это текстовый файл, с точным синтаксисом, который предназначен для чтения поисковыми системами. Эти системы также называют роботами, отсюда и одноименное название файла. Точность синтаксиса объясняется тем, что файл читается компьютером.
Robots.txt (известный также как «протокол исключений» (Robots Exclusion Protocol), был согласован разработчиками первых поисковых роботов. Файл не был стандартизирован какой-либо официальной организацией, но для всех крупных поисковых систем robots.txt, по сути, является стандартом.
Функции robots.txt
Поисковые системы индексируют веб-сайты за счет сканирования страниц. При этом осуществляются переходы по ссылкам с сайта «А» на сайт «Б», «В» и т.д. Прежде чем поисковая система начнет сканирование любой страницы в домене, с которым она прежде не сталкивалась, происходит открытие файла robots.txt этого домена. В свою очередь, файл robots.txt сообщает поисковой системе, какие URL на этом сайте разрешены для индексации.
Поисковая система кэширует контент robots.txt и обновляет его несколько раз в день, таким образом изменения отображаются очень быстро.
Где хранить файл robots.txt?
Файл robots.txt должен всегда находиться в корневой папке домена. Так, если адрес домена — www.example.com, тогда файл должен присутствовать здесь: http://www.example.com/robots.txt.
Если домен отображается без www, таким же должен быть и robots.txt. Это же касается http и https.
Еще очень важно, чтобы файл назывался именно как robots.txt.
Плюсы и минусы robots.txt
Плюс: бюджет
Каждый сайт допускает сканирование определенного количества страниц. Блокируя доступ поисковой системы к разделам сайта, вы тем самым экономите средства, которые могут пойти на другие разделы. В особенности на сайтах, где требуется достаточно много работы по части SEO, может быть очень уместно сразу же заблокировать доступ к определенным разделам.
Блокировка параметров запросов
Одна из ситуаций, когда могут понадобиться дополнительные средства — сайт использует множество параметров в строке запроса для фильтрации и сортировки. Допустим, есть 10 разных параметров запросов и разных значений, которые могут использоваться в любой комбинации. В результате получаются сотни, если не тысячи вариаций. Блокировка всех параметров запросов позволит сделать так, чтобы поисковая система сканировала только основные URL сайта.
Линия, блокирующая все URL сайта, с запросом:
Disallow: /*?*
Минус: страница не удаляется из результатов поиска
Файл robots.txt сообщает поисковому пауку, в какую часть сайта он не может проникнуть. Но невозможно указать поисковой системе на то, какие URL не следует показывать в поисковых результатах. Это означает, что если поисковой системе запретить доступ к определенному URL, ссылка все еще может появляться в поисковых результатах. Если поисковая система обнаружит достаточно много ссылок, ведущих к этому URL, он будет добавлен, но при этом поисковая система не будет «знать» что на этой странице.
Если вы хотите сделать так, чтобы страница не появлялась в результатах поиска, понадобится атрибут noindex. Это означает, что у поисковой системы должна быть возможность индексировать страницу и найти атрибут noindex, поэтому страница не должна блокироваться в файле robots.txt.
Синтаксис robots.txt
WordPress robots.txt
Файл robots.txt включает в себя один и больше блоков директив, каждый начинается с линии user-agent. «User-agent» — это название специфического робота. У вас может быть один блок для всех поисковых систем, использующих групповой символ для user-agent, или специфические блоки для поисковых систем. Поисковый робот всегда будет выбирать наиболее точное название блока.
Эти блоки выглядят следующим образом:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: bingbot
Disallow: /not-for-bing/
Директивы Allow и Disallow не должны быть чувствительны к регистру (прописных или строчных букв). Но при выборе значения параметров все же следует учитывать состояние регистра. /photo/ — не то же самое, что /Photo/. Директивы пишутся прописными для удобочитаемости файла.
Директива User-agent
Первая часть любого блока директив — user-agent — идентифицирует определенного робота/паука. Поле user-agent сопоставляется со специфическим полем user-agent робота (обычно более длинным).
Например:
Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Относительно простой линии User-agent: Googlebot будет вполне достаточно, если вы хотите сообщить роботу о том, что необходимо сделать.
У большинства поисковых систем имеется несколько роботов, которые используются для индексации, рекламных кампаний, изображений, видео и т.д.
Поисковые системы всегда будут выбирать самые специфические блоки директив, из тех, которые обнаружат. Например, есть три набора директив: одна для *, одна для Googlebot и еще одна — для Googlebot-News. Если блок определяет, кому принадлежит юзер-агент Googlebot-Video, будут соблюдены ограничения Googlebot. Бот с юзер-агентом Googlebot-News будет использовать более специфические директивы Googlebot-News.
Самые распространенные юзер-агенты для поисковых роботов:
Ниже представлен список юзер-агентов, которые можно использовать в файле robots.txt для сопоставления с самыми распространенными поисковыми системами:
Поисковая система | Поле | User-agent |
Baidu | General | baiduspider |
Baidu | Images | baiduspider-image |
Baidu | Mobile | baiduspider-mobile |
Baidu | News | baiduspider-news |
Baidu | Video | baiduspider-video |
Bing | General | bingbot |
Bing | General | msnbot |
Bing | Images & Video | msnbot-media |
Bing | Ads | adidxbot |
General | Googlebot | |
Images | Googlebot-Image | |
Mobile | Googlebot-Mobile | |
News | Googlebot-News | |
Video | Googlebot-Video | |
AdSense | Mediapartners-Google | |
AdWords | AdsBot-Google | |
Yahoo! | General | slurp |
Yandex | General | yandex |
Директива Disallow
Вторая линия в любом блоке директив — это линия Disallow. У вас может быть одна или несколько таких линий, определяющих те разделы сайта, к которым робот определенной системы не может получить доступ. Пустая линия Disallow означает, что запрещенных разделов нет, и что поисковому роботу предоставлен доступ ко всему сайту целиком.
User-agent: *
Disallow: /
Эта линия блокирует доступ всех поисковых систем к вашему сайту.
User-agent: *
Disallow:
Эта линия разрешит всем поисковым системам сканировать весь ваш сайт.
User-agent: googlebot
Disallow: /Photo
Эта линия запретит Google сканировать директорию Photo на вашем сайте и все ее содержимое. Все поддиректории /Photo также не будут сканироваться. Но эта линия не закроет Google доступ к директории photo, т.к. линии учитывают состояние регистра прописных и строчных символов.
Как использовать групповые символы/регулярные выражения
«Официально» стандарт robots.txt не поддерживает ни регулярные выражения, ни групповые символы. Однако все крупные поисковые системы их понимают. А это значит, что вы можете использовать такие линии, чтобы блокировать группы файлов:
Disallow: /*.php
Disallow: /copyrighted-images/*.jpg
В приведенном выше примере * расширяется до названия совпадающего файла. Остальная часть лини не чувствительна к регистру, поэтому не будет блокироваться доступ поискового робота к файлу /copyrighted-images/example.JPG.
Некоторые системы, такие как Google, разрешают использование более усложненных регулярных выражений. Однако стоит учитывать, что не все поисковые системы способны понять такую логику. Самая полезная особенность — $, что указывает на конец URL.
Disallow: /*.php$
Это означает, что /index.php нельзя индексировать, но /index.php?p=1 — возможно. Конечно, данная особенность применима лишь особых ситуациях, и ее использование сопряжено с определенным риском: легко допустить ошибку и разблокировать то, что не нужно.
Нестандартные директивы robots.txt
Кроме директив Disallow и User-agent существуют ряд других, которые вы можете использовать. Эти директивы не поддерживаются всеми краулерами поисковых систем, поэтому следует учитывать такое ограничение.
Директива Allow
Это неоригинальная «спецификация», тем не менее большинство поисковых систем ее понимают, что дает возможность формировать очень простые и читабельные директивы:
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Единственно возможный способ достичь того же результата без директивы allow — специально добавить disallow к каждому файлу в папке wp-admin.
Директива noindex
Это одна из наименее известных директив, но Google ее фактически поддерживает. Однако использование метода блокировки, который только лишь убирает страницу из Google, означает, что эта страница останется открытой для других поисковых систем.
Стоит иметь в виду, что директива noindex официально не поддерживается Google, т.е. если она работает сейчас, в будущем ситуация может измениться.
Директива host
Поддерживается Яндексом (но не Google, даже несмотря на то, что в некоторых публикациях утверждается обратное), эта директива позволяет решить, будет ли поисковая система высвечивать адрес example.com или www.example.com.
Простой линии host: example.com будет достаточно.
На эту директиву не стоит полагаться, т.к. она поддерживается только Yandex. К тому же она не позволяет выбрать — http или https. Более подходящее решение, которое применимо для всех поисковых систем, — перенаправление 301 для всех названий хостов, которые вы не хотите индексировать.
www.example.com -> example.com
Директива crawl-delay
Директива crawl-delay поддерживается Yahoo!, Bing и Yandex — она позволяет несколько замедлить эти три системы, которые порой проявляют чрезмерную активность по части сканирования сайтов. Способы чтения директив у этих поисковых систем разные, но конечный результат принципиально не отличается.
crawl-delay: 10
Эта линия приведет к тому, что Yahoo! и Bing будет ждать 10 секунд после сканирующего действия.
Yandex будет получать доступ к вашему сайту через каждые десять секунд.
Устанавливая crawl delay на 10 секунд, вы позволяете этим поисковым системам индексировать только 8,640 страниц в день. Для маленького сайта это довольно много, но не для большого. С другой стороны, если вы не получаете трафик от упомянутых систем, это неплохой способ снизить нагрузку на полосу пропускания.
Директива sitemap для XML Sitemaps
С помощью директивы sitemap вы можете сообщить поисковой системе (в частности, Bing, Yandex и Google), где расположены XML-файлы. Конечно же, у вас есть возможность предоставить XML Sitemaps каждой поисковой системе, используя соответствующий инструментарий веб-мастера. Инструменты веб-мастера поисковых систем предоставляют очень ценную информацию о сайте. Если вы не хотите этого делать, как альтернативный вариант можете добавить sitemap в robots.txt.
Валидация robots.txt
Существует множество инструментов, которые позволяют провести валидацию robots.txt. Однако когда необходимо подтвердить директивы, лучше обратиться к первоисточнику. У Google имеется тестовый инструмент для robots.txt в Google Search Console (меню Crawl):
И, конечно же, целесообразнее тщательно протестировать изменения перед их запуском.
Владельцу сайта нужно позаботиться о том, чтобы в поиск не попала конфиденциальная информация — например, личные данные пользователей, их переписка или счета. Такие страницы нужно запрещать индексировать, рекомендуется закрывать страницы со служебной информацией и страницы-дубликаты так как это напрямую влияет на продвижение сайта в поиске.
Файл Robots txt — настройка, как создать и проверить: пример robots txt на сайте, директивы
Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).
Robots.txt — как создать правильный файл robots.txtФайл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть — allow. Проверка и анализ robots.txt.
Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow
Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.
Почему важно создавать файл robots.txt для сайтаВ 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.
Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.
Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.
У Яндекса было другое объяснение:
«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам… Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом…
Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».
Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.
Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.
Как создать robots.txt для сайтаНастройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.
Основные директивы robots.txtВ простейшем файле robots.txt используются следующие директивы:
- User-agent
Disallow
Allow
Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.
Директива DisallowЭта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.
Как закрыть части сайта с помощью директивы Disallow:
- Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (
/
):Disallow: /
-
Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце:
Disallow: /
events
/
-
Если нужно закрыть страницу, необходимо указать название страницы после косой черты:
Disallow: /file.html
Разрешает роботу сканировать сайт или отдельные URL.
В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:
User-agent: Yandex
Allow: /events
Disallow: /
Спецсимволы в директивахДля директив Allow и Disallow используются спецсимволы «*» и «$».
Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов:
Disallow
: /
example
*/
-
По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть
URL
, заканчивающиеся на
doc
:
Disallow
: /*.
doc
$
-
Спецсимвол # используется для написания комментариев и не учитывается роботами.
Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.
Пример:
https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:
User-Agen
t: *
Disallo
w: /forum
Disallo
w: /cgi-bin
Hos
t:
https://www.glavnoye-zerkalo.ru
Правила использования директивы Host:
- В файле robots.txt может быть только одна директива
Host
. Робот всегда ориентируется на первую директиву, даже если их указано несколько. - Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,
- Должно быть указано одно доменное имя и номер порта в случае необходимости.
Если директива Host прописана неправильно, роботы ее проигнорируют.
Директива Crawl-delayДиректива Crawl-delay
задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.
Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:
User-agent: *
Disallow: /search
Crawl-delay: 3
Директива Clean-paramПригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.
Использование кириллицыПри составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.
Как проверить robots.txtДля проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).
Как добавить файл robots.txt на сайт
Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt
и загрузить в каталог верхнего уровня сайта или в корневой каталог.
Как управлять поисковым роботом Яндекса? — Учебный центр Unibrains
Как можно повлиять на робота, чтобы он индексировал то, что нам нужно или наоборот не индексировал? Это одна из самых популярных тем, которую кто только не разбирал, и в тоже время мы постоянно видим ошибки в файле robots.txt. Что же не так? Давайте разберемся.
Сам файл robots.txt – это строгий набор инструкций для индексирующего робота, показывающий, что можно индексировать, а что нет. Этот файл находится в корне вашего сайта, обязательно имеет название robots.txt и начинается со строки User-agent. Эта директива показывает какие правила, перечисленные ниже, будут использоваться для того или иного робота.
Распространенные директивы disallow/allow запрещают или разрешают индексирование страниц. Здесь можно запрещать и дублирующие страницы, и служебные, и скрипты, и все что угодно. Особенно важна эта директива, если у вас на сайте хранятся какие-то пользовательские данные: договор, адреса доставки, мобильный телефон и др. Эту информацию нужно закрыть от индексирующего робота, чтобы она не попала в результаты поиска.
Директива Clean-param позволяет удалять ненужные параметры из URL-адресов страниц, если вы их используете для отслеживания того, откуда пришел на ваш сайт индексирующий робот.
Директива Crawl-delay задает интервал между окончанием запроса одной страницы роботом и началом запроса другой. Очень эффективная директива, если вы открыли новый раздел на вашем сайте; робот пришел и начал скачивать кучу страниц, создавать дополнительную нагрузку сайту, ресурс перестает отвечать, недоступен для посетителей, и вы теряете своих клиентов.
Директива Sitemap указывает на наличие и адрес, т.е. местоположение соответствующего файла карты на вашем сайте. Директива Host указывает адрес главного зеркала.
Вот пример типичного файла robots.txt
Начинается файл с директивы User-agent: *. Где * — показывает, что используется для всех индексирующих роботов, если не указано иначе. Во втором блоке указано User-agent: Yandex. Это означает, что он предназначен только для индексирующих роботов Яндекса.
Директива Disallow:/admin указывает на то, что нужно запретить обход всех страниц, которые начинаются с admin. Disallow:*=? cart* запрещает любые действия, любые GET-параметры, содержащие этот адрес.
GET-параметры – это параметры, которые передаются серверу, когда совершается запрос. Со стороны пользователя это выглядит, как часть интернет адреса. Например, такой запрос http://www.examle.com/test?param1=value1¶m2=value2¶m3=value3.
Все, что идет после ? это GET-параметры. Они представляют собой список пар – ключ-значение, разделенные &. В данном случае это три пары: (param1, value1) (param2, value2) (param3, value3).
Дополнительные директивы: Clean-param: sid/ – очищает идентификатор сессии.
Crawl-delay: 0.5 – в данном случае робот будет запрашивать две страницы в 1 секунду.
Какие самые распространенные ошибки допускаются при работе с файлом robots.txt?
- Ошибки в содержимом файла. Даже самые опытные вебмастера допускают такие ошибки, допускают вылета сайта из результата поиска, так как сайт становится полностью недоступен для индексирующего робота.
- Код ответа НТТР отличный от кода 200. Самый распространенный случай, когда у вас есть служебный домен, и он вылез в результаты поиска. Что вы делаете? Вы закрываете Disallow all на служебном домене. И настраиваете индексирующему роботу НТТР-код ответа 403. Робот приходит, запрашивает ваш файл robots.txt и видит код ответа отличный от кода 200. Он игнорирует эту инструкцию и считает, что тут находится полностью разрешающий файл, что все адреса, которые ему известны, можно индексировать и включать в результаты поиска.
- Наличие кириллических символов в файле robots.txt. Такие символы использовать нельзя, робот их проигнорирует.
Самый распространенный случай ошибки, например, если ваш сайт лютикицветочки.рф, и в директиве Host – вы его указали не в закодированном виде. Хотя нужно указывать в закодированном понекоде (Punycode).
Punycode — алгоритм, который определяет однозначное преобразование символов Юникода (символы национального алфавита, например, россия.рф) в строки ASCII-символов.
А как мы знаем, URL отправляются в интернет в ASCII-кодировке. Данная кодировка используется для передачи информации между компьютерами в интернете. ASCII расшифровывается как Американский Стандартный Код для Обмена информацией.
- Файл robots.txt превышает размер 32 Кб. Робот, получая такой файл, считает, что это не файл текстового типа, а обычная страничка, и что эту страничку не нужно учитывать при обходе сайта.
Все эти ошибки можно предотвратить, если пользоваться простейшим инструментом в «Яндекс.Вебмастер» — Анализатор robots.txt.
Анализ robots.txt в панеле Яндекс.ВебмастерВставляете адрес вашего сайта, нажимаете загрузить robots.txt, теперь можете увидеть, то, что сейчас там находится, добавляете список URL-адресов страниц, нажимаете кнопку проверить. Можно редактировать, посмотреть, как робот воспримет то или иное изменение. Если вы вносите какие-то серьезные изменения в файл robots.txt, даже если знаете и делали это много раз, то перестрахуйтесь, воспользовавшись этим инструментом.
Что такое карта сайта и как её рисовать?
Итак, мы с вами запретили роботу посещать те или иные страницы на сайте, но теперь нужно показать, какие страницы нужно индексировать и включать в поисковую выдачу.
Для этого существует специальный файл Sitemap – карта вашего сайта. Это текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать. Ниже приведен пример файла sitemap.
Так выглядит типичная карта сайта. SitemapФайл должен начинаться со служебной строки, указывающей на кодировку. Обязательно стандарт, с которым он составлен, и обязательно тэг Url и Loc (location – показывает адрес страницы). Это самый простой файл, здесь всего одна страница – это «морда» (главная страница сайта). Плюс есть необязательные тэги, которые тоже можно передавать роботу, и которые робот может учитывать (lastmode – дата последнего изменения страницы , changefreq – периодичность ее изменения, priority – приоритет при обходе вашего сайта в целом).
Ошибки при работе с Sitemap
- Самая распространенная ошибка, с которой сталкиваются вебмастера – это, когда индексирующему роботу указывают файл sitemap, находящийся на другом сайте. Например, если вы используете бесплатный генератор файлов sitemap, то он автоматически размещает этот файл у себя на сайте. Робот не будет обрабатывать такой файл, потому что в соответствии со стандартом, файл должен обязательно находиться на том хосте, ссылки которого указаны внутри самого сайта. То есть, если у вас есть сайт лютикицветочки.рф в нем должны находиться только эти ссылки и сам файл должен находиться только на этом сайте.
- Установленное перенаправление файла sitemap – это вторая проблема. К примеру, у вас файл находится по стандартному адресу (sitemap.xml), и там находится редирект, ведущий на какую-то внутреннюю страницу, на внутренний адрес. Робот не обрабатывает такие файлы sitemap. Файл sitemap обязательно должен возвращать код ответа 200.
- Критические ошибки внутри самого файла, которые тоже влияют на его обработку. Например, если отсутствует служебная строка с указанием кодировки (<?xml version=”1,0” encoding=”UTF-8”?>). Робот просто проигнорирует такой файл, и не будет использовать его при обходе.
В работе с файлом sitemap вам так же пригодится Валидатор в «Яндекс.Вебмастер», в котором можно проверить все эти ошибки, проверить ваш готовый файл, размещенный на сервере либо на компьютере. Поможет Стандарт файлов sitemap, переведенный на русский язык. И, конечно, раздел «Помощь вебмастеру».
Зеркала сайтов
Следующий вопрос, о котором хочется поговорить – это зеркала сайтов. Попробуем с ними разобраться. Как правило, любой сайт в интернете доступен по двум адресам: http://www.site.ru и http://site.ru. Для индексирующего робота это два изначально независимых ресурса, они индексируются независимо, и участвуют в поиске независимо друг от друга. Что это значит? Что у одного сайта может быть проиндексировано определенное количество страниц, они будут находиться по таким-то запросам. У второго сайта может быть совсем другая ситуация. И для того, чтобы избежать такого дублирования и перемешки, непонимания, мы используем зеркала сайтов.
Зеркала сайтов – это несколько сайтов, которые обладают одинаковым контентом. В данном случае, это сайты с www или без www, сайты по протоколу https, и адрес сайта на кириллице. Это все распространенные случаи.
Зачем все это нужно? Основная причина, по которой сейчас используются зеркала сайтов – это перенос сайта на новый адрес с сохранением характеристик старого адреса. Например, вы решили сменить доменное имя по каким-либо причинам. Потому что выбрали его 10 лет назад, и сейчас он кажется вам не современным, так как сложно писать пользователям, которые вбивают его в адресную строку, постоянно делают ошибки. Во-вторых, для того, чтобы предотвратить ошибочные переходы по другим адресам.
В первом случае, если мы совершаем переезд с использованием зеркал, мы сохраняем все характеристики старого сайта для нового. Соответственно, мы минимизируем какие-либо возможные проблемы.
Каким образом сайты можно сделать зеркалами?
- Указать роботу на адрес вашего главного зеркала, который должен находиться в результатах поиска. А можно с помощью директивы Host в вашем файле robot.txt. Указали адрес, это будет прямое направление роботу, что нужно включать адрес по определенному адресу в поиск.
- Сообщить роботу об изменениях, если у вас уже есть сайт с www и без www, можно с помощью соответствующего инструмента «Главное зеркало» в «Яндекс.Вебмастер». Но сам по себе инструмент не позволяет изменить адрес главного зеркала. Это делает именно директива Host.
- Последний пункт, который я бы рекомендовал использовать, в крайнем случае — это северное перенаправление на главное зеркало. Например, с неглавного зеркала на новый адрес сайта. Почему? Одна из распространённых ошибок при использовании зеркал, это как раз серверное перенаправление.
Допустим ситуацию, что у нас есть два сайта: Сайт А (главное зеркало) и сайт В (не главное зеркало). Сайт А индексируется, участвует в результатах поиска, участвует по запросам. Есть сайт В, сейчас это не главное зеркало, и в выдаче мы его не видим. Мы принимаем решение, что нам нужно включать в результаты поиска именно сайт В. И устанавливаем перенаправление с сайта А на сайт В. Что происходит дальше? Главное наше зеркало (сайт А) перестает участвовать в результатах поиска, потому что сейчас на нем установлено перенаправление и его страницы не доступны для робота. Они начинают исключаться из поисковой выдачи. Сайт В при этом (поскольку является не главным зеркалом) в поиске не участвует, не индексируется и не показывается по каким-либо запросам.
А теперь немного данных из «Яндекс.Метрики». После установки редиректа буквально в течение двух недель страницы сайта начали исключаться из поисковой выдачи, и переходы на сайт снизились. Все это продолжалось до того момента, когда изменился адрес главного зеркала.
Исключение страниц сайта из поисковой выдачи при неправильной работе с зеркалами сайтов.Типичные ошибки при работе с зеркалами.
Помимо установки редиректа для смены адреса главного зеркала, допускаются еще ряд многочисленных ошибок, основные из которых:
- Разное содержимое на ваших сайтах при попытке склеить их или объединить в группу зеркал. К примеру, вы хотите одновременно изменить дизайн на вашем сайте и изменить адрес главного зеркала. Чтобы сайты были зеркалами, на них для робота должен находиться один и тот же контент. В данном случае, я советую делать это поэтапно: сначала делать редизайн, потом менять главное зеркало. Либо наоборот: размещать по старому адресу старый контент, ждать склейки, потом делать редизайн сайта. Чтобы не было проблем. Если контент будет разным, вы не склеите, то потеряете время и посетителей.
- Вторая распространённая проблема — это переезд вашего сайта в раздел другого ресурса. Например, у вас есть 2 сайта. Один сайт занимается роботами-пылесосами, а второй — бытовой техникой. Вы решаете, что роботы-пылесосы – это тоже бытовая техника, и что можно объединить их в один большой ресурс. Устанавливаете директиву Host, и ждете, но ничего не происходит, потому что у вас на одном адресе находится один сайт, а на другом — другой. Директива Host здесь не поможет, и объединить такие сайты в группу зеркал не получится.
В подобных ситуациях можно открывать раздел на вашем большом ресурсе, после того как эти страницы начнут индексироваться можно установить 301 редирект с вашего маленького сайта на этот раздел. К сожалению, склеить сайты в такой ситуации не получится.
- Еще одна распространенная проблема — это запрет или недоступность вашего старого зеркала. Бывает так, что вебмастера забывают продлить доменное имя. Спустя какое-то время они покупают доменное имя, хотят объединить данные сайты в группы зеркал. Поскольку доступ к вашему старому сайту уже утерян, склеить такие сайты не получится. Их нельзя склеить как-то вручную, применить какие-то настройки.
Чтобы сайты могли быть склеены, они должны быть доступны для индексирования и находиться в вашем управлении.
- Последнее по популярности — это противоречивые указания для индексирующего робота о том, по какому адресу сайт должен индексироваться и находиться в поисковой выдаче. Например, в директиве Host вы указали один адрес, редирект поставили по другому адресу. Робот автоматически выберет по своему усмотрению, в соответствии со своими алгоритмами, адрес главного зеркала. Иногда бывает, что это не тот адрес, который вы хотели. Поэтому тут нужно быть внимательным. Если вы решаете переехать на новый домен, все указания должны вести именно на него.
robots.txt недействителен
• Обновлено
Файл robots.txt
сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Недопустимая конфигурация robots.txt
может вызвать проблемы двух типов:
- Она может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже отображаться в результатах поиска.
- Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.
Как происходит сбой аудита Lighthouse
robots.txt
# Недопустимые флаги Lighthouse robots.txt
files:
Большинство проверок Lighthouse применяется только к той странице, на которой вы сейчас находитесь. Однако, поскольку robots.txt
определен на уровне имени хоста, этот аудит применяется ко всему вашему домену (или субдомену).
Разверните robots.txt
недействителен audit в вашем отчете, чтобы узнать, что не так с вашими роботами .txt
.
Общие ошибки включают:
-
Не указан пользовательский агент
-
Шаблон должен быть пустым, начинаться с "/" или "*"
-
Неизвестная директива
-
Неверный URL карты сайта
-
$ следует использовать только в конце шаблона.
Lighthouse не проверяет правильность расположения файла robots.txt
. Для правильной работы файл должен находиться в корне вашего домена или субдомена.
Как исправить проблемы с
robots.txt
#Убедитесь, что
robots.txt
не возвращает код состояния HTTP 5XX # Если ваш сервер возвращает ошибку сервера (код состояния HTTP в 500) для robots.txt
поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что предотвратит индексацию нового содержания.
Чтобы проверить код состояния HTTP, откройте robots.txt
в Chrome и проверьте запрос в Chrome DevTools.
Оставить
robots.txt
меньше 500 КиБ # Поисковые системы могут прекратить обработку robots.txt
на полпути, если размер файла превышает 500 КиБ. Это может сбить с толку поисковую систему и привести к некорректному сканированию вашего сайта.
Чтобы robots.txt
оставался маленьким, меньше сосредотачивайтесь на отдельных исключенных страницах и больше на более широких шаблонах. Например, если вам нужно заблокировать сканирование файлов PDF, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf
с использованием disallow: /*.pdf
.
Исправьте любые ошибки формата #
- В файле
robots.txt
разрешены только пустые строки, комментарии и директивы, соответствующие формату «имя: значение». - Убедитесь, что
allow
иdisallow Значения
либо пусты, либо начинаются с/
или*
. - Не используйте
$
в середине значения (например,allow: / file $ html
).
Убедитесь, что есть значение для
user-agent
# User-agent names, чтобы сообщить сканерам поисковых систем, каким директивам следовать.Вы должны указать значение для каждого экземпляра user-agent
, чтобы поисковые системы знали, следует ли следовать соответствующему набору директив.
Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из его опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования.)
Используйте *
для сопоставления со всеми другими поисковыми роботами, не имеющими аналогов.
Не
user-agent:
disallow: / downloads /
Пользовательский агент не определен.
Do
user-agent: *
disallow: / downloads / user-agent: magicsearchbot
disallow: / uploads /
Определены общий пользовательский агент и пользовательский агент magicsearchbot
.
Убедитесь, что нет директив
allow
или disallow
, прежде чем user-agent
# Имена пользовательских агентов определяют разделы вашего файла robots.txt
. Сканеры поисковых систем используют эти разделы, чтобы определить, каким директивам следовать.Размещение директивы перед именем первого пользовательского агента означает, что никакие сканеры не будут следовать ей.
Не
# начало файла
disallow: / downloads / user-agent: magicsearchbot
allow: /
Никакой поисковый робот не прочитает директиву disallow: / downloads
.
Do
# начало файла
user-agent: *
disallow: / downloads /
Всем поисковым системам запрещено сканировать папку / downloads
.
Сканеры поисковой системы следуют только директивам в разделе с наиболее конкретным именем пользовательского агента. Например, если у вас есть директивы для user-agent: *
и user-agent: Googlebot-Image
, изображения Googlebot будут следовать только директивам в разделе user-agent: Googlebot-Image
.
Предоставьте абсолютный URL-адрес для
карты сайта
#Файлы Sitemap — отличный способ сообщить поисковым системам о страницах вашего веб-сайта. Файл карты сайта обычно включает в себя список URL-адресов на вашем веб-сайте вместе с информацией о том, когда они в последний раз были изменены.
Если вы решили отправить файл карты сайта в robots.txt
, убедитесь, что используете абсолютный URL.
Не
карта сайта: /sitemap-file.xml
Do
карта сайта: https://example.com/sitemap-file.xml
Ресурсы #
Последнее обновление: Улучшить статьюКак я могу управлять ботами, пауками и краулерами? — База знаний DreamHost
Обзор
Боты, пауки и другие поисковые роботы, обращающиеся к вашим динамическим страницам, могут вызвать чрезмерное использование ресурсов (памяти и ЦП).Это может привести к высокой нагрузке на сервер и замедлить работу вашего сайта (ов).
Один из способов уменьшить нагрузку на сервер от ботов, пауков и других поисковых роботов — создать файл robots.txt в корне вашего веб-сайта. Это сообщает поисковым системам, какой контент на вашем сайте они должны и не должны индексировать. Это может быть полезно, например, если вы хотите исключить часть своего сайта из индекса поисковой системы Google.
Если вы предпочитаете не создавать этот файл самостоятельно, вы можете попросить DreamHost создать его автоматически (для каждого домена) на странице Block Spiders.
Хотя большинство основных поисковых систем соблюдают директивы robots.txt, этот файл действует только как предложение для соответствующих поисковых систем и не препятствует доступу поисковым системам (или другим подобным инструментам, таким как электронная почта / парсер) контент или сделать его доступным.
Роботы-блокираторы
Проблема может заключаться в том, что Google, Yahoo или другой бот поисковой системы просматривает ваш сайт чрезмерно. (Это проблема, которая подпитывается сама собой; если бот не может завершить поиск из-за нехватки ресурсов, он может запускать один и тот же поиск снова и снова.)
Блокировка роботов Google
В следующем примере IP-адрес 66.249.66.167 был найден в вашем журнале access.log. Вы можете проверить, какой компании принадлежит этот IP-адрес, выполнив команду «host» через SSH:
.[сервер] $ host 66.249.66.167 167.66.249.66.in-addr.arpa указатель имени домена crawl-66-249-66-167.googlebot.com.
Чтобы заблокировать этого робота Google, используйте в файле robots.txt следующую строку:
# уходи, Googlebot Пользовательский агент: Googlebot Disallow: /
Расшифровка полей вверху:
- # уходи
- Это комментарий, который используется только для того, чтобы вы знали, почему вы создали это правило.
- Пользовательский агент
- Имя бота, к которому будет применяться следующее правило.
- Запретить
- Путь к URL-адресу, который вы хотите заблокировать. Эта косая черта означает, что весь сайт будет заблокирован.
Просмотрите дополнительную информацию о роботах Google, нажав следующее:
Блокировка Yahoo
Сканирующие ботыYahoo подчиняются правилу задержки сканирования в robots.txt, которое ограничивает их активность при загрузке. Например, чтобы указать Yahoo не загружать страницу чаще, чем раз в 10 секунд, вы должны добавить следующее:
# замедлить Yahoo Пользовательский агент: Slurp Задержка сканирования: 10
Расшифровка полей вверху:
- # замедлить Yahoo
- Это комментарий, который используется только для того, чтобы вы знали, почему вы создали это правило.
- Агент пользователя: Slurp
- Slurp — это имя пользовательского агента Yahoo. Вы должны использовать это, чтобы заблокировать Yahoo.
- Задержка сканирования
- Указывает агенту пользователя ждать 10 секунд между каждым запросом к серверу.
Просмотрите дополнительную информацию о роботах Yahoo, щелкнув следующее:
Замедление хороших ботов
Используйте следующее, чтобы замедлить некоторых, но не всех хороших ботов:
Агент пользователя: *
Задержка сканирования: 10
Расшифровка полей вверху:
- Пользовательский агент: *
- Относится ко всем User-agent.
- Задержка сканирования
- Указывает агенту пользователя ждать 10 секунд между каждым запросом к серверу.
Блокировка всех ботов
Запретить всех ботов:
Агент пользователя: * Disallow: /
Чтобы запретить их использование в определенной папке:
Агент пользователя: * Запретить: / yourfolder /
Плохие боты могут использовать этот контент как список целей.
Расшифровка полей вверху:
- Пользовательский агент: *
- Относится ко всем User-agent.
- Запрещено: /
- Запрещает индексацию всего.
- Запретить: / yourfolder /
- Запрещает индексирование этой отдельной папки.
Будьте осторожны
Блокирование всех ботов (User-agent: *) со всего вашего сайта (Disallow: /) приведет к деиндексированию вашего сайта в законных поисковых системах. Также обратите внимание, что плохие боты, скорее всего, проигнорируют ваш файл robots.txt, поэтому вы можете заблокировать их пользовательский агент с расширением.htaccess файл.
Плохие боты могут использовать ваш файл robots.txt в качестве целевого списка, поэтому вы можете пропустить перечисление каталогов в файле robots.txt. Плохие боты также могут использовать ложные или вводящие в заблуждение пользовательские агенты, поэтому блокировка пользовательских агентов с помощью .htaccess может работать не так, как ожидалось.
Если вы не хотите никого блокировать, это хороший файл robots.txt по умолчанию:
В этом случае вам может потребоваться удалить robots.txt, если вы не возражаете против 404 запросов в ваших журналах.
DreamHost рекомендует блокировать только определенные пользовательские агенты и файлы / каталоги, а не *, если вы не уверены на 100%, что хотите.
Блокировка плохих ссылок
Для получения подробных инструкций, пожалуйста, посетите статью о том, как блокировать рефереры.
См. Также
Управление поисковыми системами и поисковыми роботами с помощью файла robots.txt
Вы можете указать, какие разделы вашего сайта вы хотите, чтобы поисковые системы и веб-сканеры индексировали, а какие разделы они должны игнорировать. Для этого вы указываете директивы в файле robots.txt и помещаете файл robots.txt в корневой каталог вашего документа.
Директивы, которые вы указываете в файле robots.txt, являются только запросами. Хотя большинство поисковых систем и многие сканеры соблюдают эти директивы, они не обязаны это делать. Поэтому никогда не следует полагаться на файл robots.txt, чтобы скрыть контент, который вы не хотите индексировать.
Использование директив robots.txt
Директивы, используемые в файле robots.txt, просты и понятны. Наиболее часто используемые директивы: User-agent , Disallow и Crawl-delay .Вот несколько примеров:
Пример 1. Указать всем сканерам доступ ко всем файлам
Агент пользователя: * Disallow:
В этом примере любой искатель (указанный в директиве User-agent и подстановочном знаке звездочки) может получить доступ к любому файлу на сайте.
Пример 2. Дайте указание всем сканерам игнорировать все файлы
Агент пользователя: * Disallow: /
В этом примере всем сканерам дано указание игнорировать все файлы на сайте.
Пример 3. Дайте указание всем сканерам игнорировать конкретный каталог
Агент пользователя: * Запретить: / scripts /
В этом примере всем поисковым роботам предписывается игнорировать каталог сценариев .
Пример 4. Указать всем сканерам игнорировать определенный файл
Агент пользователя: * Запретить: /documents/index.html
В этом примере всем поисковым роботам предписывается игнорировать каталог documents / index.html .
Пример 5. Управление интервалом сканирования
Агент пользователя: * Задержка сканирования: 30
В этом примере всем поисковым роботам предписывается ждать не менее 30 секунд между последовательными запросами к веб-серверу.
Дополнительная информация
Для получения дополнительной информации о robots.txt, посетите http://www.robotstxt.org.
Что такое файл Robots.txt?
Используйте файл robots.txt, чтобы указать сканерам поисковых систем, какие страницы сканировать, а какие игнорировать. Небольшая ошибка в файле robots.txt может иметь серьезные последствия.
Содержание
Что такое файл Robots.txt?
Файл robots.txt — это просто текстовый файл в каталоге вашего веб-сайта, который указывает сканерам поисковых систем, какие страницы веб-сайта сканировать, а какие игнорировать.Эти инструкции сканирования определяются как «запрещение» или «разрешение» поведения определенного (или всего) программного обеспечения для сканирования Интернета.
Как работает Robots.txt?
Файл robots.txt является частью протокола исключения роботов (REP), конгломерата стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя указания, такие как мета-роботы, а также инструкции для страницы, подкаталога или всего веб-сайта о том, как поисковые системы должны обрабатывать ссылки (например, «nofollow» или «follow»).
Пример файла robots.txt:
Ниже приведены некоторые примеры использования robots.txt для сайта www.example.com: URL файла robots.txt: www.example.com/robots.txt
Блокирование доступа всех поисковых роботов к содержимому
Эта инструкция говорит всем поисковым роботам не сканировать никакие страницы на www.example.com, включая домашнюю страницу.
Пользовательский агент: *
Запретить: /
Разрешение всем поисковым роботам доступа ко всему контенту
Приведенное ниже правило предписывает поисковым роботам сканировать все страницы на www.example.com, включая домашнюю страницу.
Пользовательский агент: * Позволять:
Блокировка определенного поискового робота из определенной папки
User-agent: Googlebot
Disallow: / example-subfolder /
Этот синтаксис дает указание только сканеру Google сканировать любые страницы, содержащие строку URL www.example.com/example-subfolder/.
Блокировка определенного поискового робота с определенной веб-страницы
Пользовательский агент: Bingbot
Disallow: / example-subfolder / blocked-page.html
Этот синтаксис дает указание только сканеру Bing избегать сканирования точной страницы по адресу www.example.com/example-subfolder/blocked-page.html.
Бесплатная пробная версия SiteGuru
Проверьте свои неиндексированные страницы с помощью полного SEO-аудита SiteGuru
Как работает robots.txt?
Поисковые системы преследуют две основные цели:
- Для сканирования Интернета для обнаружения содержимого
- Чтобы проиндексировать этот контент, чтобы его могли найти люди, ищущие информацию.
В целом, чтобы сканировать веб-сайты, поисковые системы переходят по ссылкам с одного веб-сайта на другой, в конечном итоге просматривая миллиарды ссылок и сайтов. Такое ползание иногда называют «пауками». Оказавшись на веб-сайте и перед тем, как запустить поиск, сканеры ищут файл robots.txt. Если он существует, они прочитают его, прежде чем продолжить просмотр страницы. Если файл robots.txt не содержит правила запрета или на веб-сайте нет файла robots.txt, сканеры продолжат сканирование другой информации на веб-сайте.
Другой быстрый файл robots.txt, который необходимо знать:
- Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.
- Файл /robots.txt общедоступен. Просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может увидеть, какие страницы вы настроили сканировать или не сканировать. Таким образом, не используйте их для сокрытия конфиденциальной информации пользователя.
- Некоторые роботы могут решить игнорировать ваших роботов.txt файл. Это особенно характерно для более предосудительных поисковых роботов, таких как парсеры адресов электронной почты или вредоносные роботы.
- Каждый субдомен в корневом домене использует отдельные файлы robots.txt. Это означает, что и example.com, и blog.example.com должны иметь свои собственные файлы robots.txt (по адресу example.com/robots.txt и blog.example.com/robots.txt).
- Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не robots.TXT, Robots.txt и т. Д.).
- Рекомендуется указывать расположение любых файлов Sitemap, связанных с этим доменом, в нижней части файла robots.txt файл.
Технический синтаксис robots.txt
Moz определяет синтаксис robots.txt следующим образом: Синтаксис robots.txt можно рассматривать как «язык» файлов robots.txt. Есть 5 общих терминов, которые вы, вероятно, встретите в файле robots. Они включают:
- User-agent: Конкретный поисковый робот, которому вы даете инструкции для обхода — обычно это поисковая система. Здесь можно найти большинство пользовательских агентов.
- Разрешить (действует только для робота Googlebot): Эта директива указывает роботу Googlebot доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.
- Disallow: Директива указывает агенту пользователя не сканировать определенный URL. Обратите внимание, что для каждого URL разрешена только одна строка «Disallow:».
- Sitemap: Используется для вызова местоположения любых XML-файлов Sitemap, связанных с этим URL. Кончик! эта директива поддерживается только Ask, Bing, Google и Yahoo.
- Задержка сканирования: Относится к количеству секунд, в течение которых поисковый робот должен ждать перед загрузкой и сканированием содержимого страницы.Кончик! Робот Googlebot не распознает это правило; однако скорость сканирования можно установить в Google Search Console.
Сопоставление с образцом
Когда дело доходит до точных URL-адресов, которые нужно разрешить или заблокировать, файлы robots.txt могут быть довольно сложными, поскольку они позволяют использовать сопоставление с шаблоном для охвата диапазона возможных вариантов URL. И Bing, и Google признают два общих выражения, которые можно использовать для определения страниц или подпапок, которые оптимизатор поисковых систем хочет исключить. Эти два символа — знак доллара ($) и звездочка (*).($) Соответствует концу URL-адреса, а (*) — это подстановочный знак, представляющий любую последовательность символов. Google предоставляет здесь отличный список возможных синтаксисов и примеров сопоставления с образцом.
Куда девать robots txt?
Файл robots.txt должен быть размещен в корне хоста сайта, к которому он применяется. Например, для управления сканированием всех URL-адресов ниже http://www.example.com/ файл robots.txt должен находиться по адресу http://www.example.com/robots.txt. Он не может находиться в подкаталоге (например, по адресу http: // example.ru / pages / robots.txt). Если вы не уверены в том, как получить доступ к корню вашего сайта или вам нужно разрешение, обратитесь к поставщику услуг веб-хостинга. Совет профессионала! Если вы не можете получить доступ к корню своего веб-сайта, используйте альтернативный метод блокировки, например метатеги.
Почему важен robots.txt?
Чтобы заблокировать закрытые страницы
Да, иногда на вашем веб-сайте могут быть страницы, которые вы не хотите индексировать, например страница входа.Если у вас есть такие страницы, можно использовать robots.txt, чтобы заблокировать их от роботов и роботов поисковых систем.
Максимальное увеличение краулингового бюджета
Если вам сложно проиндексировать все свои страницы, у вас может быть сбой краулингового бюджета. Блокируя незначительные страницы с помощью файла robots.txt, робот Googlebot может тратить большую часть вашего краулингового бюджета на наиболее важные страницы.
Запрет индексации ресурсов
Хотя мета-директивы могут работать так же хорошо, как robots.txt, чтобы предотвратить индексацию страниц, они не подходят для мультимедийных ресурсов, таких как изображения и PDF-файлы. Вот где в игру вступает robots.txt. Бонус! Вы всегда можете проверить, сколько веб-страниц вы проиндексировали, в Google Search Console. Если это именно то число, которое вы хотите проиндексировать, не беспокойтесь. Но если это не так, то для вашего сайта необходимо создать файл robots.txt.
Рекомендации по поисковой оптимизации
- Убедитесь, что вы не блокируете какой-либо контент или разделы вашего сайта, которые нужно сканировать.
- Не используйте robots.txt, чтобы конфиденциальные данные не появлялись в результатах поисковой выдачи. Это связано с тем, что другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию, которая все еще может быть проиндексирована. Если вы действительно хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например метадирективу noindex или защиту паролем.
- Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут. Это означает:
- Если они также не связаны с другими страницами, доступными для поисковых систем (например, страницы, не заблокированные через robots.txt, мета-роботы и т. д.) связанные ресурсы не будут сканироваться и не могут быть проиндексированы.
- Невозможно передать эквити ссылки с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, на которые вы хотите передать средства, используйте другой механизм блокировки, отличный от robots.txt.
- В некоторых поисковых системах используется несколько сканеров. Например, Google использует Googlebot-Image для поиска изображений и Googlebot для обычного поиска. Большинство сканеров одной поисковой системы следуют одним и тем же правилам, поэтому нет необходимости определять правила для каждого из нескольких сканеров поисковой системы.Однако такая возможность позволяет вам оптимизировать сканирование вашего веб-сайта.
- Сделайте ваш файл robots.txt удобным для поиска. Сразу у вас есть файл robots.txt; пора оживить его. Хотя вы можете разместить его в любом основном каталоге своего веб-сайта, мы рекомендуем разместить его по адресу https://example.com/robots.txt и записать его в нижнем регистре, чтобы увеличить шансы. Обратите внимание, что ваш файл robots.txt чувствителен к регистру. Поэтому убедитесь, что в имени файла используется строчная буква «r».
- Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день. Если вы изменили файл и хотите обновить его быстрее, чем есть, вы можете отправить URL-адрес robots.txt в Google.
Robots.txt против мета-роботов против x-роботов
В чем разница между этими тремя типами директив роботов? Просто robots.txt — это фактический текстовый файл, тогда как мета и x-роботы — это метадирективы. Помимо этого, эти три функции выполняют разные функции.Robots.txt определяет поведение сканирования веб-сайта или каталога. С другой стороны, мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).
роботов-текст-парсер — npm
Легкий парсер robots.txt для Node.js с поддержкой подстановочных знаков, кеширования и обещаний.
Установка
Через NPM: npm install robots-txt-parser --save
.
Начало работы
После установки robots-txt-parser необходимо запросить и инициализировать:
const robotsParser = require ('robots-txt-parser'); const robots = robotsParser ( { userAgent: 'Googlebot', // Пользовательский агент по умолчанию для использования при поиске разрешающих / запрещающих правил, если этого агента нет в списке активных robots.txt мы используем *. allowOnNeutral: false // Значение, которое будет использоваться, когда правила robots.txt для разрешения и запрета сбалансированы в зависимости от того, можно ли сканировать ссылку. });
Пример использования:
const robotsParser = require ('robots-txt-parser'); const robots = robotsParser ( { userAgent: 'Googlebot', // Пользовательский агент по умолчанию для использования при поиске разрешающих / запрещающих правил, если этот агент не указан в активном robots.txt, мы используем *. allowOnNeutral: false // Значение, которое будет использоваться, когда robots.txt для разрешения и запрета сбалансированы в зависимости от того, можно ли сканировать ссылку. }); robots.useRobotsFor ('http://Example.com') .then (() => { robots.canCrawlSync ('http://example.com/news'); // Возвращает истину, если ссылку можно просканировать, и ложь, если нет. robots.canCrawl ('http://example.com/news', (значение) => { console.log ('Сканируемый:', значение); }); // Вызывает обратный вызов со значением true, если ссылка доступна для сканирования, и false в противном случае. robots.canCrawl ('http://example.com/news') // Если обратный вызов не предоставлен, возвращает обещание, которое разрешается со значением true, если ссылка доступна для сканирования, и false в противном случае..then ((значение) => { console.log ('Сканируемый:', значение); }); });
Документы
parseRobots (ключ, строка)
Анализирует строковое представление файла robots.txt и кеширует его с заданным ключом.
isCached (домен)
Метод, используемый для проверки того, был ли уже извлечен и проанализирован файл robots.txt.
Параметры
- домен -> Может быть любой URL.
Возвращает
Возвращает истину, если файл robots.txt уже был извлечен и кэширован анализатором robots-txt-parser.
Пример
robots.isCrawled ('https://example.com'); // правда или ложь robots.isCrawled ('example.com'); // Пытается проверить кеш только на http: // и возвращает true или false.
выборка (URL)
Пытается получить и проанализировать файл robots.txt, расположенный по URL-адресу, этот метод позволяет избежать проверки встроенного кеша и всегда будет пытаться получить новую копию robots.txt.
Параметры
Возвращает
Возвращает обещание, которое разрешится после того, как robots.txt был получен с помощью проанализированного файла robots.txt.
Пример
robots.fetch ('https://example.com/robots.txt') .then ((дерево) => { console.log (Object.keys (дерево)); // Будет регистрировать карту сайта и любые пользовательские агенты. });
useRobotsFor (url)
Пытается загрузить и использовать robots.txt по заданному URL-адресу, если файл robots.txt уже был загружен, вместо этого выполняется чтение из кэшированной копии.
Параметры
Возвращает
Возвращает предложение, которое разрешается после получения и анализа URL-адреса.
Пример
robots.useRobotsFor ('https://example.com/news') .then (() => { // Логика проверки возможности сканирования ссылок. });
canCrawl (URL, обратный вызов)
Проверяет, можно ли сканировать URL-адрес для текущего активного файла robots.txt и пользовательского агента. Если файл robots.txt не кэширован для домена URL-адреса, он извлекается и анализируется перед возвратом логического значения.
Параметры
- url -> Любой URL.
- обратный вызов -> Дополнительный обратный вызов, если undefined возвращает обещание.
Возвращает
Возвращает обещание, которое разрешается с помощью логического значения.
Пример
robots.canCrawl ('https://example.com/news') .then ((сканирование) => { console.log (доступный для сканирования); // Запишем логическое значение. });
canCrawlSync (URL)
Проверяет, можно ли сканировать URL-адрес для текущего активного файла robots.txt и пользовательского агента. Это не будет пытаться получить файл robots.txt, если он не кэширован.
Параметры
Возвращает
Возвращает логическое значение в зависимости от того, доступен ли URL-адрес для сканирования.Если для этого URL-адреса нет кешированного файла robots.txt, он всегда будет возвращать значение true.
Пример
robots.canCrawlSync ('https://example.com/news') // правда или ложь.
getSitemaps (обратный вызов)
Возвращает список карт сайта, имеющихся в активном файле robots.txt.
Параметры
- обратный вызов -> Дополнительный обратный вызов, если undefined возвращает обещание.
Возвращает
Возвращает обещание, которое разрешается с помощью массива строк.
Пример
robots.getSitemaps () .then ((карты сайта) => { console.log (карты сайта); // Запишем список строк. });
getSitemapsSync ()
Возвращает список карт сайта, имеющихся в активном файле robots.txt.
Параметры
Нет
Возвращает
Массив строк.
Пример
robots.getSitemapsSync (); // Будет массивом, например. ['http://example.com/sitemap1.xml', 'http: // example.ru / sitemap2.xml '].
getCrawlDelay (обратный вызов)
Возвращает задержку сканирования по запросам к текущему активному robots.txt.
Параметры
- обратный вызов -> Дополнительный обратный вызов, если undefined возвращает обещание.
Возвращает
Возвращает обещание, которое разрешается целым числом.
Пример
robots.getCrawlDelay () .then ((crawlDelay) => { console.log (crawlDelay); // Будет целым числом больше или равным 0.});
getCrawlDelaySync ()
Возвращает задержку сканирования, указанную в активном файле robots.txt для активного пользовательского агента.
Параметры
Нет
Возвращает
Целое число, большее или равное 0.
Пример
robots.getCrawlDelaySync (); // Будет целым числом.
getCrawlableLinks (ссылки, обратный вызов)
Принимает массив ссылок и возвращает массив ссылок, которые можно сканировать. для текущих активных роботов.текст.
Параметры
- ссылок -> Массив ссылок для проверки возможности сканирования.
- обратный вызов -> Дополнительный обратный вызов, если undefined возвращает обещание.
Возвращает
Обещание, которое будет содержать массив всех доступных для сканирования ссылок.
Пример
robots.getCrawlableLinks ([]) .then ((ссылки) => { console.log (ссылки); });
getCrawlableLinksSync (ссылки)
Принимает массив ссылок и возвращает массив ссылок, которые можно сканировать. для текущих активных роботов.текст.
Параметры
- ссылок -> Массив ссылок для проверки возможности сканирования.
Возвращает
Массив всех ссылок, доступных для сканирования.
Пример
robots.getCrawlableLinks (['example.com/test/news', 'example.com/test/news/article']); // Вернет массив ссылок, которые можно сканировать.
getPreferredHost (обратный вызов)
Возвращает предпочтительное имя хоста, указанное в директиве host: активного файла robots.txt, или null, если его нет.
Параметры
- обратный вызов -> Дополнительный обратный вызов, если undefined возвращает обещание.
Возвращает
Строка, если хост определен, в противном случае не определено.
Пример
robots.getPreferredHost () .then ((хост) => { console.log (хост); });
getPreferredHostSync ()
Возвращает предпочтительное имя хоста, указанное в директиве host: активного файла robots.txt или undefined, если его нет.
Параметры
Нет
Возвращает
Строка, если хост определен, в противном случае не определено.
Пример
robots.getPreferredHostSync (); // Будет строкой, если указана директива host.
setUserAgent (пользовательский агент)
Устанавливает текущий агент пользователя для использования при проверке возможности сканирования ссылки.
Параметры
Возвращает
неопределенный
Пример
роботов.setUserAgent ('exampleBot'); // Теперь при взаимодействии с robots.txt мы ищем записи для exampleBot. robots.setUserAgent ('testBot'); // Теперь при взаимодействии с robots.txt ищем записи для testBot.
setAllowOnNeutral (разрешить)
Устанавливает для поведения canCrawl возврат значения true или false, когда правила robots.txt сбалансированы относительно того, следует ли сканировать ссылку или нет.
Параметры
- разрешить -> логическое значение.
Возвращает
неопределенный
Пример
роботов.setAllowOnNeutral (истина); // Если правила разрешения / запрета сбалансированы, canCrawl возвращает true. robots.setAllowOnNeutral (ложь); // Если правила разрешения / запрета сбалансированы, canCrawl вернет false.
См. Файл ЛИЦЕНЗИИ.
Robots.txt: Как создать идеальный файл для SEO
В этой статье мы расскажем, что такое robot.txt в SEO, как он выглядит и как его правильно создать. Это файл, который отвечает за блокировку индексации страниц и даже всего сайта.Неправильная структура файла — частая ситуация даже среди опытных SEO-оптимизаторов, поэтому остановимся на типичных ошибках при редактировании robot.txt.
Что такое Robots.txt?
Robots.txt — это текстовый файл, информирующий поисковых роботов о том, какие файлы или страницы закрыты для сканирования и индексации. Документ размещается в корневом каталоге сайта.
Давайте посмотрим, как работает robot.txt. У поисковых систем две цели:
- Для сканирования сети для обнаружения контента;
- Индексировать найденный контент, чтобы показывать его пользователям по идентичным поисковым запросам.
Для индексации поисковый робот посещает URL-адреса с одного сайта на другой, просматривая миллиарды ссылок и веб-ресурсов. После открытия сайта система ищет файл robots.txt. Если сканер находит документ, он сначала сканирует его, а после получения от него инструкций продолжает сканирование страницы.
Если в файле нет директив или он не создается вообще, робот продолжит сканирование и индексацию без учета данных о том, как система должна выполнять эти действия.Это может привести к индексации нежелательного содержания поисковой системой.
Но многие SEO-специалисты отмечают, что некоторые поисковые системы игнорируют инструкции в файле robot.txt. Например, парсеры электронной почты и вредоносные robots. Google также не воспринимает документ как строгую директиву, но рассматривает его как рекомендацию при сканировании страницы.
User-agent и основные директивы
Агент пользователя
У каждой поисковой системы есть свои собственные пользовательские агенты.Robots.txt прописывает правила для каждого. Вот список самых популярных поисковых ботов:
- Google: Googlebot
- Bing: Bingbot
- Yahoo: Slurp
- Baidu: Baiduspider
При создании правила для всех поисковых систем используйте этот символ: (*). Например, давайте создадим бан для всех роботов, кроме Bing. В документе это будет выглядеть так:
Агент пользователя: *
Запрещено: /
Агент пользователя: Bing
Разрешить: /
Роботы.txt может содержать различное количество правил для поисковых агентов. При этом каждый робот воспринимает только свои директивы. То есть, инструкции для Google, например, не актуальны для Yahoo или какой-либо другой поисковой системы. Исключение будет, если вы укажете один и тот же агент несколько раз. Тогда система выполнит все директивы.
Важно указать точные имена поисковых ботов; в противном случае роботы не будут следовать указанным правилам.
Директивы
Это инструкции по сканированию и индексации сайтов поисковыми роботами.
Поддерживаемые директивы
Это список директив, поддерживаемых Google:
1. Запретить
Позволяет закрыть доступ поисковых систем к контенту. Например, если вам нужно скрыть каталог и все его страницы от сканера для всех систем, то файл robots.txt будет иметь следующий вид:
Агент пользователя: *
Disallow: / catalog /
Если это для конкретного краулера, то это будет выглядеть так:
Пользовательский агент: Bingbot
Disallow: / catalog /
Примечание: Укажите путь после директивы, иначе роботы его проигнорируют.
2. Разрешить
Это позволяет роботам сканировать определенную страницу, даже если она была ограничена. Например, вы можете разрешить поисковым системам сканировать только одно сообщение в блоге:
.Агент пользователя: *
Запретить: / blog /
Разрешить: / blog / что такое SEO
Также можно указать robots.txt, чтобы разрешить весь контент:
Агент пользователя: *
Разрешить: /
Примечание. Поисковые системы Google и Bing поддерживают эту директиву.Как и в случае с предыдущей директивой, всегда указывайте путь после , разрешите .
Если вы ошиблись в robots.txt, disallow и allow вызовут конфликт. Например, если вы упомянули:
Агент пользователя: *
Disallow: / blog / что такое SEO
Разрешить: / blog / что такое SEO
Как видите, URL разрешен и запрещен для индексации одновременно. Поисковые системы Google и Bing будут отдавать приоритет директиве с большим количеством символов.В данном случае это , запретить . Если количество символов одинаково, то будет использоваться директива allow , то есть ограничивающая директива.
Другие поисковые системы выберут первую директиву из списка. В нашем примере это , запрещает .
3. Карта сайта
Карта сайта, указанная в robots.txt, позволяет поисковым роботам указывать адрес карты сайта. Вот пример такого файла robots.txt:
Карта сайта: https: // www.site.com/sitemap.xml
Агент пользователя: *
Запретить: / blog /
Разрешить: / blog / что такое SEO
Если карта сайта указана в Google Search Console, то этой информации Google будет достаточно. Но другие поисковые системы, такие как Bing, ищут его в robots.txt.
Не нужно повторять директиву для разных роботов, она работает для всех. Рекомендуем записать его в начале файла.
Примечание : Вы можете указать любое количество карт сайта.
Вы также можете прочитать соответствующую статью XML-руководство по файлам Sitemap: лучшие приемы, советы и инструменты.
Директивы без поддержки
1. Задержка сканирования
Раньше директива показывала задержку между сканированиями. Google в настоящее время не поддерживает его, но может быть указан для Bing. Для робота Googlebot скорость сканирования указывается в консоли поиска Google.
Например:
Пользовательский агент: Bingbot
Задержка сканирования: 10
2.Noindex
Для робота Googlebot в файле robots.txt noindex никогда не поддерживался. Мета-теги роботов используются для исключения страницы из поисковой системы.
3. Nofollow
Это не поддерживается Google с прошлого года. Вместо этого используется атрибут URL rel = «nofollow».
Примеры robots.txt
Рассмотрим пример стандартного файла robot.txt:
Карта сайта: https://www.site.com/sitemap.xml
Агент пользователя: Googlebot
Запретить: / blog /
Разрешить: / blog / что такое SEO
Агент пользователя: Bing
Запретить: / blog /
Разрешить: / blog / что такое SEO
Примечание: Вы можете указать любое количество пользовательских агентов и директив, которое хотите.Всегда пишите команды с новой строки.
Почему Robots.txt важен для SEO?
ФайлRobots txt для SEO играет важную роль, поскольку он позволяет вам давать инструкции поисковым роботам, какие страницы вашего сайта следует сканировать, а какие нет. Кроме того, файл позволяет:
- Избегайте дублирования контента в результатах поиска;
- Блокировать непубличные страницы; например, если вы создали промежуточную версию;
- Запретить индексирование определенных файлов, например PDF-файлов или изображений; и
- Увеличьте бюджет сканирования Google.Это количество страниц, которые может сканировать робот Googlebot. Если на сайте их много, то поисковому роботу потребуется больше времени, чтобы просмотреть весь контент. Это может негативно повлиять на рейтинг сайта. Вы можете закрыть неприоритетные страницы со сканера, чтобы бот мог проиндексировать только те страницы, которые важны для продвижения.
Если на вашем сайте нет контента для управления доступом, возможно, вам не потребуется создавать файл robots.txt. Но мы все же рекомендуем создать его, чтобы лучше оптимизировать свой сайт.
Robots.txt и Мета-теги роботов
Мета-теги robots не являются директивами robots.txt; они являются фрагментами HTML-кода. Это команды для поисковых роботов, которые позволяют сканировать и индексировать контент сайта. Они добавляются в раздел страницы.
Мета-теги роботов состоят из двух частей:
- name = ”‘. Здесь нужно ввести название поискового агента, например, Bingbot.
- content = ». Вот инструкции, что должен делать бот.
Итак, как выглядят роботы? Взгляните на наш пример:
Существует два типа мета-тегов роботов:
- Тег Meta Robots: указывает поисковым системам, как сканировать определенные файлы, страницы и подпапки сайта.
- Тег X-robots: фактически выполняет ту же функцию, но в заголовках HTTP. Многие эксперты склоняются к мнению, что теги X-robots более функциональны, но требуют открытого доступа к файлам .php и .htaccess или к серверу. Поэтому использовать их не всегда возможно.
В таблице ниже приведены основные директивы для мета-тегов роботов с учетом поисковых систем.
Содержимое файла robots.txt должно соответствовать мета-тегам robots.Самая распространенная ошибка SEO-оптимизаторов: в robots.txt закрывают страницу от сканирования, а в данных мета-тегов роботов открывают.
Многие поисковые системы, включая Google, отдают приоритет содержанию robots.txt, чтобы важную страницу можно было скрыть от индексации. Вы можете исправить это несоответствие, изменив содержание в метатегах robots и в документе robots.txt.
Как найти Robots.txt?
Robots.txt можно найти во внешнем интерфейсе сайта.Этот способ подходит для любого сайта. Его также можно использовать для просмотра файла любого другого ресурса. Просто введите URL-адрес сайта в строку поиска своего браузера и добавьте в конце /robots.txt. Если файл найден, вы увидите:
Нил Патель
Или откроется пустой файл, как в примере ниже:
Нил Патель
Также вы можете увидеть сообщение об ошибке 404, например, здесь:
MOZ
Если при проверке robots.txt на своем сайте, вы обнаружили пустую страницу или ошибку 404, значит, для ресурса не был создан файл или в нем были ошибки.
Для сайтов, разработанных на базе CMS WordPress и Magento 2, есть альтернативные способы проверки файла:
- Вы можете найти robots.txt WordPress в разделе WP-admin. На боковой панели вы найдете один из плагинов Yoast SEO, Rank Math или All in One SEO, которые генерируют файл. Подробнее читайте в статьях Yoast против Rank Math SEO, Пошаговое руководство по установке плагина Rank Math, Настройка плагинов SEO, Yoast против All in One SEO Pack.
- В Magento 2 файл можно найти в разделе Content-Configuration на вкладке Design.
Для платформы Shopware сначала необходимо установить плагин, который позволит вам создавать и редактировать robots.txt в будущем.
Как создать Robots.txt
Для создания robots.txt вам понадобится любой текстовый редактор. Чаще всего специалисты выбирают Блокнот Windows. Если этот документ уже был создан на сайте, но вам нужно его отредактировать, удалите только его содержимое, а не весь документ.
Вне зависимости от ваших целей формат документа будет выглядеть как стандартный образец robot.txt:
Карта сайта: URL – адрес (рекомендуем всегда указывать)
user – agent: * (или укажите имя определенного поискового бота)
Disallow: / (путь к контенту, который вы хотите скрыть)
Затем добавьте оставшиеся директивы в необходимом количестве.
Вы можете ознакомиться с полным руководством от Google по созданию правил для поисковых роботов здесь.Информация обновляется, если поисковая система вносит изменения в алгоритм создания документа.
Сохраните файл под именем robot.txt.
Для создания файла можно использовать генератор robots.txt.
Инструменты SEO Книга
Основным преимуществом этой услуги является то, что она помогает избежать синтаксических ошибок.
Где разместить Robots.txt?
Файл robots.txt по умолчанию находится в корневой папке сайта. Управлять сканером на сайте.com, документ должен находиться по адресу sitename.com/robots.txt.
Если вы хотите контролировать сканирование контента на субдоменах, например blog.sitename.com, то документ должен находиться по этому URL: blog.sitename.com/robots.txt.
Используйте любой FTP-клиент для подключения к корневому каталогу.
Лучшие практики оптимизации Robots.txt для SEO
- Маски (*) можно использовать для указания не только всех поисковых роботов, но и идентичных URL-адресов на сайте. Например, если вы хотите закрыть от индексации все категории продуктов или разделы блога с определенными параметрами, то вместо их перечисления вы можете сделать следующее:
пользовательский агент: *
Запретить: / blog / *?
Боты не будут сканировать все адреса в подпапке / blog / со знаком вопроса.
- Не используйте документ robots.txt для скрытия конфиденциальной информации в результатах поиска. Иногда другие страницы могут ссылаться на контент вашего сайта, и данные будут индексироваться в обход директив. Чтобы заблокировать страницу, используйте пароль или NoIndex.
- В некоторых поисковых системах есть несколько ботов. Например, у Google есть агент для общего поиска контента — Googlebot и Googlebot-Image, который сканирует изображения. Рекомендуем прописать директивы для каждого из них, чтобы лучше контролировать процесс сканирования на сайте.
- Используйте символ $ для обозначения конца URL-адресов. Например, если вам нужно отключить сканирование файлов PDF, директива будет выглядеть так: Disallow: / * .pdf $.
- Вы можете скрыть версию страницы для печати, так как это технически дублированный контент. Сообщите ботам, какой из них можно сканировать. Это полезно, если вам нужно протестировать страницы с одинаковым содержанием, но с разным дизайном.
- Обычно при внесении изменений содержимое robots.txt кэшируется через 24 часа. Этот процесс можно ускорить, отправив адрес файла в Google.
- При написании правил указывайте путь как можно точнее. Например, предположим, что вы тестируете французскую версию сайта, находящуюся в подпапке / fr /. Если вы напишете такую директиву: Disallow: / fr, вы закроете доступ к другому контенту, который начинается с / fr. Например: / французская парфюмерия /. Поэтому всегда добавляйте «/» в конце.
- Для каждого субдомена необходимо создать отдельный файл robots.txt.
- Вы можете оставлять комментарии в документе для оптимизаторов или себя, если вы работаете над несколькими проектами.Чтобы ввести текст, начните строку с символа «#».
Как проверить файл robots.txt
Проверить правильность созданного документа можно в Google Search Console. Поисковая система предлагает бесплатный тестер robots.txt.
Чтобы начать процесс, откройте свой профиль для веб-мастеров.
Выберите нужный веб-сайт и нажмите кнопку «Сканировать» на левой боковой панели.
Нил Патель
Вы получите доступ к сервису роботов Google.txt тестер.
Нил Патель
Если адрес robots.txt уже был введен в поле, удалите его и введите свой собственный. Нажмите кнопку test в правом нижнем углу.
Нил Патель
Если текст изменится на «разрешено», значит ваш файл был создан правильно.
Вы также можете протестировать новые директивы прямо в инструменте, чтобы проверить, насколько они верны. Если ошибок нет, вы можете скопировать текст и добавить его в файл robots.txt документ. Подробные инструкции по использованию сервиса читайте здесь.
Распространенные ошибки в файлах Robots.txt
Ниже приведен список наиболее распространенных ошибок, которые допускают веб-мастера при работе с файлом robots.txt.
- Имя состоит из прописных букв. Файл называется просто robots.txt. Не используйте заглавные буквы.
- Он содержит неверный формат поискового агента. Например, некоторые специалисты пишут имя бота в директиве: Disallow: Googlebot.Всегда указывайте роботов после строки пользовательского агента.
- Каждый каталог, файл или страница следует записывать с новой строки. Если вы добавите их в один, боты проигнорируют данные.
- Правильно напишите директиву host, если она вам нужна в работе.
Неправильно:
Пользовательский агент: Bingbot
Disallow: / cgi-bin
Правильно:
Пользовательский агент: Bingbot
Disallow: / cgi-bin
Хост: www.sitename.com
5. Неверный заголовок HTTP.
Неправильно:
Content-Type: text / html
Правильно:
Content-Type: text / plain
Не забудьте проверить отчет об охвате в Google Search Console. Там будут отображаться ошибки в документе.
Рассмотрим самые распространенные.
1. Доступ к URL-адресу заблокирован:
Эта ошибка появляется, когда один из URL-адресов в карте сайта заблокирован роботами.текст. Вам необходимо найти эти страницы и внести в файл изменения, чтобы снять запрет на сканирование. Чтобы найти директиву, блокирующую URL, вы можете использовать тестер robots.txt от Google. Основная цель — исключить дальнейшие ошибки при блокировке приоритетного контента.
2. Запрещено в robots.txt:
Сайт содержит контент, заблокированный файлом robots.txt и не индексируемый поисковой системой. Если эти страницы необходимы, вам необходимо снять блокировку, предварительно убедившись, что страница не запрещена для индексации с помощью noindex.
Если вам нужно закрыть доступ к странице или файлу, чтобы исключить их из индекса поисковой системы, мы рекомендуем использовать метатег robots вместо директивы disallow. Это гарантирует положительный результат. Если не снять блокировку сканирования, то поисковая система не найдет noindex, и контент будет проиндексирован.
3. Контент индексируется без блокировки в документе robots.txt:
Некоторые страницы или файлы могут все еще присутствовать в индексе поисковой системы, несмотря на то, что они запрещены в robots.текст. Возможно, вы случайно заблокировали нужный контент. Чтобы исправить это, исправьте документ. В других случаях для вашей страницы следует использовать метатег robots = noindex. Подробнее читайте в статье Возможности ссылок Nofollow. Новая тактика SEO.
Как закрыть страницу из индексации в Robots.txt
Одна из основных задач robots.txt — скрыть определенные страницы, файлы и каталоги от индексации в поисковых системах. Вот несколько примеров того, какой контент чаще всего блокируется от ботов:
- Дублированный контент;
- страниц пагинации;
- Категории товаров и услуг;
- Контентных страниц для модераторов;
- Интернет-корзины для покупок;
- Чаты и формы обратной связи; и
- Страницы благодарности.
Чтобы предотвратить сканирование содержимого, следует использовать директиву disallow. Давайте рассмотрим примеры того, как можно заблокировать поисковым агентам доступ к различным типам страниц.
1. Если вам нужно закрыть определенную подпапку:
user – agent: (укажите имя бита и добавьте *, если правило должно применяться ко всем поисковым системам)
Disallow: / name – subfolder /
2. Если закрыть определенную страницу на сайте:
user – agent: (* или имя робота)
Disallow: / name –subfolder / page.html
Вот пример того, как интернет-магазин указывает запрещающие директивы:
Журнал поисковых систем
Оптимизаторы заблокировали весь контент и страницы, которые не являются приоритетными для продвижения в результатах поиска. Это увеличивает краулинговый бюджет некоторых поисковых роботов, например Googlebot. Это действие позволит улучшить рейтинг сайтов в будущем, конечно, с учетом других важных факторов.
Мы не рекомендуем скрывать конфиденциальную информацию с помощью директивы disallow, так как вредоносные системы могут обойти блокировку.Некоторые эксперты используют приманки для занесения IP-адресов в черный список. Для этого в файл добавляется директива с привлекательным для мошенников названием, например, Disallow: /logins/page.html. Таким образом, вы можете создать свой собственный черный список IP-адресов.
Robots.txt — простой, но важный документ для практики SEO. С его помощью поисковые роботы могут эффективно сканировать и индексировать ресурс, а также отображать только полезный и приоритетный контент для пользователей в поисковой выдаче. Результаты поиска будут формироваться более точно, что поможет привлечь больше целевых посетителей на ваш сайт и повысить CTR.
Обычно создание robots.txt — это одноразовая и кропотливая работа. Тогда вам останется только скорректировать содержание документа в зависимости от развития сайта. Большинство SEO-специалистов рекомендуют использовать robots.txt вне зависимости от типа ресурса.
Robots.txt Рекомендации для начинающих
Файл robots.txt — это файл на вашем веб-сервере, который используется для управления такими ботами, как Googlebot, поисковый робот Google.Вы можете использовать его, чтобы заблокировать Google и Bing от сканирования частей вашего сайта.
Мой друг Себастьян тоже был достаточно любезен, чтобы помочь мне создать идиотское руководство по Robots.txt. Вопросы и ответы ниже:
Что ж, в «идиотской версии» не будет интересных деталей, но она поможет вам начать. Robots.txt — это простой текстовый файл. Вы не должны редактировать его с помощью HTML-редакторов, текстовых процессоров или каких-либо приложений, кроме , текстового редактора , такого как vi (Хорошо, блокнот.exe тоже допускается). Вы не должны вставлять изображения и тому подобное, также категорически запрещен любой другой HTML-код.
Содержание
Куда мне поместить файл robots.txt сайт?Потому что все эти модные приложения вставляют бесполезную чушь вроде форматирования, HTML-кода и прочего. Скорее всего, поисковые системы не могут интерпретировать файл robots.txt, например:
DOCTYPE text / plain PUBLIC "- // W3C // DTD ТЕКСТ 1.0 Переходный // Суахили " "http://www.w3.org/TR/text/DTD/plain1-transitional.dtd"> {\ b \ lang2057 \ langfe1031 \ langnp2057 \ insrsid64 \ charrsid11089941 User-agent: Googlebot } {\ lang2057 \ langfe1031 \ langnp2057 \ insrsid6
4 \ charrsid11089941 \ line Запрещено: / \ line Разрешить: } {\ cs15 \ i \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6
4 \ charrsid25 {\ i \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6
4 \ charrsid25 содержание } {\ cs15 \ i \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6
4 \ charrsid25 /}...
(Хорошо, хорошо, я придумал этот пример, но он представляет необработанное содержимое текстовых файлов, сохраненных с помощью редакторов HTML и текстовых процессоров.)
Могу ли я использовать роботов.txt в подкаталогах?Robots.txt находится в корневом каталоге вашего веб-пространства, то есть в домене или субдомене, например
"/web/user/htdocs/example.com/robots.txt"с разрешением
http://example.com/robots.txt.
Почему я должен создавать свой файл robots.txt только в формате ASCII?Конечно, вы можете создавать файлы robots.txt во всех своих подкаталогах, но не следует ожидать, что поисковые системы будут их запрашивать / подчиняться. Если вы по каким-то странным причинам используете субдомены, такие как crap.example.com, то example.com/robots.txt не совсем подходящий инструмент для управления сканированием субдоменов, поэтому убедитесь, что каждый субдомен обслуживает свой собственный robots.txt. Когда вы загружаете свой файл robots.txt, убедитесь, что вы делаете это в режиме ASCII, ваш FTP-клиент обычно предлагает «ASCII | Авто | Двоичный» — выберите «ASCII», даже если вы использовали редактор ANSI для его создания.
Могу ли я использовать файл Robots.txt, если я нахожусь на бесплатном хосте ?Поскольку простые текстовые файлы содержат только содержимое ASCII. Иногда стандарты, которые говорят: «загружайте файлы * .htm * .php * .txt .htaccess * .xml в режиме ASCII, чтобы предотвратить их непреднамеренное повреждение во время передачи, хранения с недопустимыми кодами EOL и т. Д.» имеют смысл. (Вы ведь просили идиотскую версию, не так ли?)
Что мне поместить в файл robots.txt?Если у вас бесплатный хост, robots.txt не для вас. Ваша служба хостинга создаст «файл» robots.txt, доступный только для чтения, который подходит для кражи даже большего объема трафика, чем его реклама, которую вы не можете удалить из своих верхних и нижних колонтитулов. Теперь, если вас все еще интересует эта тема, вы должны узнать, как работают поисковые системы, чтобы понять, что можно заархивировать с помощью файла robots.txt, а какие мифы опубликованы на вашем любимом форуме.
Скажем, я хочу, чтобы файл / папка не попали в Google.Что именно мне нужно делать?Ваш файл robots.txt содержит полезные, но в значительной степени игнорируемые утверждения, например
# Пожалуйста, не сканируйте этот сайт в наши рабочие часы!(сканер не знает вашего часового пояса и не получает информацию о часах работы вашего сайта), а также фактические директивы сканера.Другими словами, все, что вы пишете в своем файле robots.txt, является директивой для поисковых роботов (тупых веб-роботов, которые могут получать ваше содержимое, но не более того), а не индексаторов (сложные алгоритмы, оценивающие только мозги, что не дает Мэтту и мне).
В настоящее время в robots.txt можно использовать только три оператора:
Disallow: / path
Allow: / path
Sitemap: http://example.com/sitemap.xml
Некоторые поисковые системы поддерживают другие директивы, такие как «задержка сканирования», но это полная ерунда, поэтому смело игнорируйте их.
Содержимое файла robots.txt состоит из разделов, посвященных определенным поисковым роботам. Если вам нечего скрывать, то ваш файл robots.txt выглядит так:
Пользовательский агент: * Запретить: Позволять: / Карта сайта: http://example.com/sitemap.xml
Если вам комфортно с Google, но MSN вас пугает, напишите:
Пользовательский агент: * Disallow:
Пользовательский агент: Googlebot Disallow:
Пользовательский агент: msnbot Disallow: /
Обратите внимание, что вы должны завершать каждую секцию поискового робота пустой строкой.Вы можете узнать имена сканеров, посетив раздел для веб-мастеров поисковой системы.
Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свой собственный раздел (по крайней мере, если вы хотите скрыть что-либо от определенного SE), что каждый раздел начинается с
User-agent: [имя искателя]
строка, и что каждый раздел заканчивается пустой строкой. Имя пользовательского агента «*» обозначает универсального веб-робота, это означает, что если в вашем файле robots.txt отсутствует раздел для определенного поискового робота, он будет использовать директивы «*», и что если у вас есть раздел для определенного поисковый робот, он проигнорирует раздел «*».Другими словами, если вы создаете раздел для поискового робота, вы должны продублировать все операторы из раздела «все сканеры» («User-agent: *»), прежде чем редактировать код.
Теперь о директивах. Самая важная директива сканера —
. Disallow: / path
«Disallow» означает, что поисковый робот не должен получать содержимое из URI, соответствующих «/ path». «/ Path» является относительным URI или шаблоном URI («*» соответствует любой строке, а «$» обозначает конец URI). Не все поисковые системы поддерживают подстановочные знаки, например MSN не поддерживает подстановочные знаки (они могут вырасти когда-нибудь).
URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса, удалите часть http://example.com, но не начальную косую черту.
Allow: path /
refines
Disallow:
операторов, напримерUser-agent: Googlebot Запретить: / Разрешить: / content /
разрешает сканирование только в пределах http://example.com/content/
Sitemap: http://example.com/sitemap.xml
указывает поисковые системы, поддерживающие протокол Sitemap, на файлы отправки.
Обратите внимание, что все директивы robots.txt — это директивы сканера , которые не влияют на индексацию. Поисковые системы индексируют запрещенные URL, извлекая заголовок и фрагмент из иностранных источников, например списков ODP (DMOZ — The Open Directory) или каталога Yahoo. Некоторые поисковые системы предоставляют метод удаления запрещенного содержания из результатов поиска по запросу.
Вы должны проверять каждый HTTP-запрос для робота Googlebot и передавать ему HTTP-код ответа 403 или 410. Или введите метатег робота Googlebot «noindex, noarchive».
(* meta name = «Googlebot» content = «noindex, noarchive» / *). Robots.txt блокируется с Disallow: не мешает индексированию. Не блокируйте сканирование страниц, которые вы хотите деиндексировать, если вы не хотите использовать терминатор URL на основе robots.txt от Google каждые шесть месяцев.
Если кто-то хочет узнать больше о роботах.txt, куда они деваются?
Могу ли я автоматически сгенерировать и замаскировать файл robots.текст?Честно говоря, я не знаю лучшего ресурса, чем мой мозг, частично сброшенный сюда. Я даже разработал несколько новых директив robots.txt и несколько дней назад отправил запрос на комментарии. Я надеюсь, что Google, единственная поисковая система, серьезно инвестирующая в развитие REP, не проигнорирует этот пост, вызванный скрытно встроенной «трепой Google». Я планирую написать еще несколько постов, не тех технических и с примерами из реальной жизни.
Конечно, вы можете спросить, и да, это для всех и 100% этично. Это очень простая задача, по сути, это простая маскировка. Уловка состоит в том, чтобы сделать файл robots.txt серверным скриптом. Затем проверьте все запросы на проверенные сканеры и предоставьте нужное содержимое каждой поисковой системе. Умный robots.txt даже поддерживает списки IP-адресов сканеров и хранит необработанные данные для отчетов. Недавно я написал руководство по скрытым файлам robots.txt по запросу лояльного читателя.
Если вам понравилось это пошаговое руководство для начинающих, вы можете поднять свои знания на новый уровень на http: // sebastians-pamphlets.com /
Что Google говорит о txt-файлах роботов
Файл robots.txt ограничивает доступ к вашему сайту роботам поисковых систем, которые сканируют Интернет. Эти боты автоматизированы, и перед тем, как получить доступ к страницам сайта, они проверяют, существует ли файл robots.