Как быстро проверить индексацию сайта в Google
Чтобы сайт отображался в результатах поиска, все его страницы, открытые для индексации, должны стать частью индекса поисковой системы. Если системе не удается добавить страницы сайта в базу данных, они остаются практически невидимыми для потенциальных клиентов.
Предлагаю рассмотреть шесть способов проверки индексации. Выясним — почему поисковые системы не индексируют сайт, найдем пути решения проблем.
- Как работает индексация сайта?
- Проверка в Google Search Console
- Как проверить индексацию конкретной страницы в Search Console?
- Анализ индексации сайта в Google поиске
- Проверка индексации онлайн с помощью сервисов
- SEO-инструменты для проверки сайтов
- Букмарклеты
- Индексатор Google Indexing API
- Почему Google не индексирует сайт?
- Как ускорить индексацию сайта?
- Как управлять краулинговым бюджетом?
На первый взгляд может показаться, что сканирование и индексация — два очень похожих процесса.
Сканирование — процесс поиска страниц для дальнейшей обработки и индексации.
Индексация — процесс добавления просканированной страницы в базу данных (индекс) поисковой системы. Таким образом, при релевантном запросе пользователя, страница появится в результатах поиска:
Важно. Сканирование сайта не означает его индексацию. А попадание сайта в индекс поисковой системы не гарантирует первых позиций поисковой выдачи, так как за порядок отображения страниц по ключевому запросу отвечает ранжирование.
Netpeak ищет SEO-специалиста.
Как проверить сайт на индексацию
Проиндексирован — значит виден. Очень важно, чтобы все страницы, которые нужно показать потенциальным клиентам, пользователям или читателям, проиндексировались. Иначе может получиться так: товар или услуга лучшие на рынке, статья полностью раскрывает суть вопроса, но если страницы вашего сайта отсутствуют в индексе поисковой системы — про это никто не узнает.
Именно поэтому важно уметь проверять индексацию.
1. Проверка в Google Search Console
Это один из базовых способов проверки индексации для владельца сайта и веб-мастера.
Войдите в ваш аккаунт на Search Console и перейдите по вкладке «Страницы» в разделе «Индексирование»:
В этом отчете вы найдете общую информацию о проиндексированных и непроиндексированных страницах с отображением на временной шкале:
Перейдя в полный отчет, увидите подробные данные о всех страницах, проверенных на индексацию:
Чтобы просмотреть отчет по неиндексируемым страницам и ошибкам индексации, вернитесь в раздел «Индексирование страниц»:
Кликнув на левую колонку «Причина», можно увидеть списки страниц сайта, недоступных к индексации:
Как проверить индексацию конкретной страницы в Search Console?
Вставьте ссылку на интересующую вас страницу в строку поиска Search Console:
В результате проверки увидите одно из следующих сообщений:
- страница успешно проиндексирована;
- страница отсутствует в индексе.
Если вы внесли все необходимые изменения, но страница все еще отсутствует в индексе — отправьте запрос на пересканирование самостоятельно:
- Введите адрес страницы в инструменте проверки URL.
- Нажмите кнопку «Запросить индексирование».
Этот же способ можно использовать для ускорения индексации новых страниц сайта — но не более 10 в день.
При сканировании сразу нескольких страниц рекомендуется применять файл Sitemap.
2. Анализ индексации сайта в Google поиске
Поисковые операторы (например, «site:») помогают уточнить результаты поиска.
Чтобы узнать о наличии вашего сайта в индексе Google, наберите в строке поиска «site:[url вашего сайта]»:
Для проверки индексации конкретной страницы используйте оператор в формате «site:[url страницы вашего сайта]»:
Если сайт или страница успешно проиндексированы, они отобразятся в результатах поиска. Появится информация о приблизительном количестве страниц вашего сайта, которые индексировалось поисковой системой:
Кроме того, инструменты поиска могут проанализировать количество страниц, индексированных поисковой системой за определенный период времени:
3.
Проверка индексации онлайн с помощью сервисовСуществует большое количество бесплатных онлайн-сервисов для контроля индексации сайта, таких как linkody.com или smallseotools.com. Их недостаток — лимиты: от 5 до 50 страниц.
Однако, если ваш сайт подключен к Google Search Console, с помощью нового инструмента от Serpstat можно за один запрос проверить индексацию до 100 страниц.
- Перейдите в раздел «Инструменты» и выберите пункт «Индексация страниц»:
- Нажмите кнопку «Подключить Google Search Console» и войдите в сервис с помощью вашего аккаунта Google:
- После авторизации в верхней левой части страницы увидите список всех сайтов, к которым у вас есть доступ с помощью Google Search Console:
- Введите до 100 URL-адресов для проверки индексации сайта и нажмите кнопку «Проверить страницы». В правой части сервиса отобразятся результаты этой операции.
4.
SEO-инструменты для проверки сайтовСпециальные программы, предназначенные для сканирования и анализа основных параметров сайта с целью выявления ошибок, могут также проверять индексацию.
При сканировании сайта в Netpeak Spider вы получите список страниц и значения параметров, влияющих на индексацию сайта: robots.txt, canonical, mета robots, X-Robots-Tag, наличие редиректов и др.:
Загрузив полученный список в Netpeak Checker, можно проверить наличие страницы или сайта в поисковой выдаче:
5. Букмарклеты
Букмарклеты (небольшие javascript-программы, сохраняемые как браузерные закладки) — автоматизированный вариант проверки.
Чтобы воспользоваться букмарклетом, откройте файл Проверка индексации и перетяните ссылку на панель закладок:
Затем найдите интересующую вас страницу либо сайт и просто нажмите на закладку. Появится новая вкладка Google с поисковым запросом, использованием уточняющего оператора «site:» и результатами индексации по запросу.
6. Индексатор Google Indexing API
Google Indexing API — бесплатный индексатор от Google, с помощью которого можно:
- узнать, когда последний раз Google получал информацию по запрошенному URL-адресу;
- отправить запрос на переиндексацию страницы;
- отправить запрос на удаление страницы из индекса.
Важным преимуществом Google Indexing API является возможность пакетных запросов индексирования, объединенных в один HTTP (до 100 штук). В день можно использовать не более 200 запросов, но если на ваших страницах внедрена разметка JobPosting или BroadcastEvent — вы можете подать заявку на увеличение квоты.
Подробнее о квотах индексатора и его подключении читайте в справке Google.
- Новый сайт. В зависимости от количества страниц, полная индексация нового сайта может занять у Googlebot от одной недели до 2-4 месяцев.
- Принудительное закрытие страниц от индексации.
Тег noindex запрещает индексирование страниц поисковому роботу.
Метатег robots
Размещается в HTML коде и действует на уровне страницы. Пример метатега robots, запрещающего сканирование —
<meta name=»robots» content=»noindex» />
X-Robot-Tag
Является HTTP-заголовком, размещается в файле конфигурации сервера. Пример X-Robot-Tag, запрещающего сканирование —
X-Robots-Tag: noindex, nofollow
Файл robots.txt
С помощью robots.txt невозможно управлять непосредственно индексацией сайта, но неправильная конфигурация этого файла может привести к полному закрытию для сканирования поисковыми роботами.
User-agent: * Disallow: /
- Неправильное использование тега canonical. Тег canonical применяется для борьбы с дублирующимся контентом, который также может быть одной из причин плохой индексации сайта. Он указывает поисковому роботу на предпочитаемую версию страницы. При сканировании URL-адрес, указанный в теге canonical, будет воспринят Googlebot как основная версия, среди похожих по содержанию страниц.
Помимо настроек, которые напрямую ограничивают или запрещают сканирование сайта, стоит отметить следующие факторы, негативно влияющие на скорость индексации:
- Отсутствие карты сайта sitemap.xml. Она помогает поисковым роботам понять его структуру и быстрее просканировать страницы.
- Отсутствие либо недостаточность внутренних ссылок. Правильная и равномерная перелинковка на сайте распределяет ссылочный вес страниц, а добавление ссылок на новые страницы сайта, а также страницы, которые уже находятся в индексе, помогает поисковым системам быстрее находить их.
- Скорость работы сайта. Googlebot не находится на сайте постоянно. Он лишь периодически сканирует контент его страниц. Медленная скорость загрузки сайта усложняет его индексацию и работу алгоритмов поискового робота.
- Качество контента. Последние обновления поисковой системы Google предполагают улучшение качества контента и создание авторитетных материалов — в первую очередь для людей, а не для манипуляции алгоритмами поиска. При оценке качества контента вашего сайта Google учитывает наличие орфографических ошибок, достоверность информации, оригинальность и другие факторы. Подробнее о создании полезного контента можно узнать в Google-справке.
- Отсутствие оптимизации мобильной версии. Для новых сайтов, созданных после 1 июля 2019 года, Google использует метод индексации Mobile-First index, отдающий предпочтение индексации мобильной версии сайта. Такое решение компании вызвано тем, что уже в 2016 году более половины запросов в Google выполнялись с мобильных устройств.
- Игнорирование ошибок в Google Search Console. Изучите отчет об ошибках в поисковой консоли Google. Посмотрите, какие из найденных ошибок, влияют на индексацию сайта и устраните их.
Так же проверьте, не подвергался ли ваш сайт ручным санкциям. Возможно, его доменное имя ранее было ограничено в связи с нарушением правил Google.
Возможности Googlebot по сканированию сайта ограничиваются краулинговым бюджетом — лимитом на проверку страниц за один визит. Узнать приблизительный краулинговый бюджет вашего сайта можно в Search Console (раздел «Индексация») — просмотрите отчет по количеству страниц, обработанных за месяц поисковой системой:
Краулинговый бюджет меняется по заложенному поисковой системой алгоритму: в зависимости от размера сайта, скорости его работы и потребностей. Если обнаружено много ошибок или мусорных страниц, бюджет может расходоваться быстрее.
Факторы, негативно влияющие на краулинговый бюджет:
- дубли страниц;
- неуникальный контент;
- битые ссылки;
- слишком большое количество редиректов;
- медленная скорость работы сайта.
Как управлять краулинговым бюджетом?
Помимо фактического управления краулинговым бюджетом с помощью индексатора Google Index API, уменьшить его расход можно с помощью технической оптимизации и улучшения качества контента.
Файл sitemap.xml.
Проверьте содержимое XML-карты сайта, убедитесь, что все указанные в ней страницы открыты к индексации и отдают код ответа сервера 200, установите автоматические добавление новых страниц (открытых к индексации) в файл sitemap.xml.
Дата изменения страницы.
Настройте HTTP заголовки Last-Modified и If-Modified-Since, чтобы указать Googlebot на страницы, контент которых не изменился с его последнего посещения (они не требуют повторного сканирования).
Оптимизация скорости загрузки сайта.
Время ответа сервера не должно превышать 200 мс, а скорость загрузки страницы — 3-5 секунд. Проверьте скорость работы сайта с помощью PageSpeed Insights, оптимизируйте страницы исходя из рекомендаций.
Редиректы и битые страницы.
Не допускайте большого количества редиректов и битых страниц на сайте. В противном случае, вместо посещения нового контента, Googlebot будет расходовать свой краулинговый бюджет на переходы по неработающим позициям.
Оптимизация перелинковки.
Добавьте ссылки на новый контент на главную страницу сайта, выведите превью анонса недавних статей, покажите новинки товаров. Организуйте перелинковку между старыми и свежими материалами, разместите ссылки на новые страницы в соцсетях — это поможет поисковому роботу быстрее их найти и просканировать.
Частота обновления сайта.
Поисковые системы отдают предпочтение актуальной и качественной информации. Регулярно обновляйте содержимое своего сайта, добавляйте новый контент не реже, чем раз в неделю, актуализируйте и дополняйте информацию на старых страницах.
Запомнить
Шесть способов самостоятельно проверить индексацию сайта или страницы:
- В Google Search Console.
- С помощью операторов поиска.
- Онлайн-сервисами.
- SEO-инструментами, например, Netpeak Spider или Netpeak Checker.
- Используя букмарклеты.
- Google Indexing API.
Для улучшения индексации сайта:
- Настройте и оптимизируйте карту сайта sitemap. xml.
- Проверьте настройки файла robots.txt и использование тега noindex.
- Следите за количеством редиректов и наличием битых страниц.
- Работайте над перелинковкой сайта.
- Улучшите скорость загрузки страниц.
- Создавайте качественный контент и регулярно работайте над его обновлением и улучшением.
- Оптимизируйте расходование краулингового бюджета.
- Не забывайте о мобильной версии сайта.
- Регулярно изучайте отчеты об ошибках в Google Search Console.
Проверка индексации сайта в Google и Яндекс
Ситуация не из приятных: сканирование сайта поисковыми роботами проходит достаточно быстро, но процесс добавления страниц в индекс не оправдывает ожиданий. Одни страницы сайта не попадают в базу поисковых систем, а другие удаляются. В результате ресурс ранжируется по проиндексированным данным. Если в индекс попали целевые страницы, вам повезло чуть больше. Так или иначе на позиции сайта в выдаче проблемы с индексацией влияют отрицательно. Особенным «приколом» 2021 года стало то, что функция принудительного переобхода страниц (когда обновляешь контент старых страниц) перестала корректно работать в Google.
Мы подготовили чек-лист, который поможет быстро оценить видимость страниц индексе и их количество.
Корректное управление индексацией позволяет оптимизировать расход краулингового бюджета: роботы индексируют только важные для продвижения страницы.
- Панели веб-мастеров
В Google Search Console проверяем «Статус индексирования» в разделе «Индекс». Проблемы с индексацией выглядят следующим образом:
Отметка «Проиндексировано всего» указывает число адресов, добавленных в индекс.
Просмотр удаленных страниц, прошедших индексацию успешно или с ошибкой доступен в отчете «Покрытие». Также можете проверить определенную страницу на попадание в индекс.
Проверка в Яндекс.Вебмастере осуществляется через путь «Индексирование сайта» — «Страницы в поиске». Далее при выборе «История» получим динамику количества страниц в поиске.
- Проверка вручную: поисковые операторы
Операторы поисковых систем используются для уточнения результатов поиска. Оператор «site:» выводит список проиндексированных страниц. Для применения параметра в поисковую строку Google или Яндекс введите «site:[url сайта]». Для получения точных данных в Google необходимо перейти на последнюю страницу поиска. Различия в полученных цифрах — показатель наличия проблем на сайте или его попадания под фильтр поисковых систем.
Оператор Cache проверяет частоту посещения сайта поисковым ботом. Настройте дополнительные инструменты поиска, чтобы просмотреть данные об индексации за час, день, неделю, месяц, год или все время.
- Автоматизированная проверка: плагины и букмарклеты
Букмарклеты — скрипты, сохраняемые в закладках браузера. Принцип работы плагинов и букмарклетов одинаковый: открываете сайт для проверки и призываете на помощь закладку из браузера. В результате получаете необходимую информацию за один клик, ничего не прописывая и не настраивая.
Расширения: SEO-tools, RDS bar, SimilarWeb, MozBar.
Работа с плагином RDS bar
- Специальные сервисы проверки
Специальные сервисы облегчают работу SEO-специалистов: позволяют не только проверить индексацию, но и выявить возможные проблемы. Среди таких сервисов: Netpeak Spider, SEO-reports, Rush Analytics. Кроме проиндексированных страниц дополнительно получаете код ответа, заголовки, метаописания, robots.txt и пр.
Возможные причины выпадения страниц из индекса и их решение:
- Недавний запуск сайта.
Индексирование недавно появившегося сайта занимает много времени. Для ускорения процесса пройдите регистрацию в «Add url», разместите сайт в каталоге и добавьте ссылки с рейтинговых ресурсов, социальных сетей.
- Отсутствие карты сайта (sitemap.xml).
Ее основная функция: сообщать поисковым системам об изменениях на ресурсе и задавать частоту проверки. Такие карты помогают сайту индексироваться быстрее с более эффективной скоростью обхода.
Чтобы проверить, есть ли страница в файле sitemap, используйте инструмент проверки URL в Search Console.
Как использовать Google Search Console маркетологу (длительность 8 минут)
- Приватные настройки WordPress.
В настройках чтения уберите галочку с пункта «Видимость для поисковых систем».
- Ошибка в метатегах в коде страниц<meta name = “robots” content = “noindex”, nofollow” />.
Чтобы найти все страницы с метатегом noindex на вашем сайте, выполните аудит сайта через Ahrefs: просмотрите предупреждения в отчете “Внутренние страницы”. Для борьбы с этой ошибкой необходимо избавиться от строки или заменить элементы на «index» и«follow».
- Ошибка в использовании директив в файле robots.txt. Закрытие доступа в robots.txt черезUser-agent: * Disallow: /
Подробнее о работе с индексным файлом читайте здесь.
- Отсутствие уникального контента.
- Дублирование страниц.
Заполните сайт качественным и собственным контентом, удалите мусорные страницы, чтобы избежать санкций от поисковиков.
Чтобы максимально повысить скорость индексации, обновляйте сайт не реже 3 раз в неделю. Например, размещайте новые публикации и обновляйте старый контент. Google будет чаще сканировать ваш сайт, а обновленные старые публикации сохранят актуальность для новых посетителей.
Собирайте информацию о соотношении проиндексированных страниц, динамике их индексации, отслеживайте тренды. Необходимо регулярно отслеживать индексирование сайта, чтобы своевременно решать проблемы и предотвращать отрицательные последствия, вносить изменения в стратегию продвижения.
Основная задача веб-мастера — убедиться, что страницы его сайта проиндексированы поисковыми системами. Для этого необходимо использовать различные методы проверки индексации.
Поиск по URL-адресу: простой способ проверить, проиндексирована ли страница, заключается в том, чтобы ввести URL-адрес страницы в поисковую строку и нажать Enter. Если страница отображается в результатах поиска, то она проиндексирована.
Использование инструментов веб-мастера: такие инструменты, как Google Search Console и Yandex.Webmaster, позволяют отслеживать индексацию страниц сайта. В них можно увидеть количество проиндексированных страниц и определить, есть ли какие-либо проблемы с индексацией.
Поиск по ключевым словам: еще один способ проверки индексации — поиск страницы по ключевым словам, которые она должна содержать. Для этого нужно ввести в поисковую строку ключевые слова, которые должны быть на странице, и посмотреть, появится ли страница в результатах поиска.
Использование команды site: в поисковых системах можно использовать команду site:, которая показывает все страницы сайта, проиндексированные поисковой системой. Если страница не появляется в этом списке, то она не проиндексирована.
Проверка в индексе: можно просто проверить, проиндексирована ли страница, перейдя на страницу поисковой системы, вводя URL-адрес в строку поиска и проверяя, есть ли страница в результатах поиска.
Использование этих методов позволит быстро и легко проверить, проиндексирована ли страница поисковыми системами. Если страница не проиндексирована, необходимо решить проблемы с индексацией.
Павел Савицкий, SEO-специалист GUSAROV:
В большинстве случаев я пользуюсь таким сервисом, как Netpeak Spider. После сканирования сайта можно определить не просто страницы, которые не индексируются, но и выявить причины непопадания их в индекс поисковых систем. Этих причин может быть много: отсутствие или некорректно заполненные заголовки, мета-теги (заголовки в выдаче), закрытие от индексации в служебном файле robots.txt, некорректно настроенный редирект и т.д. Наличие многофункциональных возможностей Netpeak Spider позволяет выгрузить различные типы страниц (например, индексируемые и неиндексируемые) с техническими ошибками в Excel, что в дальнейшем приводит к ускорению работы по исправлению неиндексируемых URL.
22.02.2023
Как найти все страницы на веб-сайте — 8 простых способов
Как найти все страницы, существующие на веб-сайте? Первая идея, которая приходит в голову, — погуглить доменное имя сайта.
А как насчет URL, которые не индексируются? Или страницы-сироты? Или веб-кэш?
Найти все страницы на веб-сайте довольно просто; однако это требует особого внимания, учитывая, что есть страницы, которые скрыты от глаз посетителей или поисковых ботов. В этом руководстве показаны 8 различных способов поиска всех страниц сайта, а также используемые инструменты.
Содержание
- Зачем вам может понадобиться найти все страницы на веб-сайте
- 1. Найдите его с помощью поисковых операторов Google
- 2. Проверьте файл robots.txt
- 3. Изучите карту сайта
- 4. Сканирование с помощью SEO-паука
- Собрать список страниц со всеми их ресурсами
- Получить списки страниц, затронутых техническими ошибками
- Посмотреть визуализированную структуру сайта
- Используйте инструменты генератора для проверки технических файлов
- 5. Проверьте свои страницы в Search Console
- 6. Используйте Google Analytics
- 7. Анализ журналов
- 8. Работа с вашей CMS
Почему вам может понадобиться найти все страницы на веб-сайте
Существует множество причин, по которым вам может понадобиться найти все страницы на веб-сайте. Вот некоторые из них:
1. Для аудита веб-сайта нового клиента и выявления проблем с индексацией.
Технические проблемы, такие как неработающие ссылки, ошибки сервера, низкая скорость страницы или плохое удобство использования на мобильных устройствах, не позволяют Google индексировать страницы. Таким образом, аудит сайта показывает, сколько URL-адресов есть на сайте и какие из них являются проблемными. В конце концов, это помогает SEO-специалистам оценить масштабы будущей работы в проекте.
2. Для обнаружения страниц собственного сайта, которые не проиндексированы по ошибке.
Если на вашем веб-сайте есть повторяющийся контент, Google может не проиндексировать все дубликаты. То же самое касается длинных цепочек редиректов и URL-адресов 404: если их много на сайте, краулинговый бюджет тратится зря. В результате поисковые боты будут реже заходить на сайт, и в целом он будет хуже индексироваться. Именно поэтому необходимы регулярные проверки, даже если в целом что-то выглядит нормально.
3. Чтобы определить проиндексированные страницы, которые не предназначены для индексации Google.
Некоторые страницы не нужны в поисковом индексе — например, страницы входа для администраторов, страницы в разработке или корзины покупок. Тем не менее, эти страницы могут быть проиндексированы против вашей воли из-за противоречивых правил или ошибок в ваших технических файлах. Например, если вы полагаетесь исключительно на robots.txt для запрета страницы, URL-адрес все равно может быть просканирован и отображаться в поиске.
4. Найти устаревшие страницы и спланировать полное обновление контента.
Google стремится предоставить наилучшие результаты для своих пользователей, поэтому, если ваш контент плохого качества, неполный или дублированный, он может не проиндексироваться. Хорошо иметь список всех ваших страниц, чтобы знать, какие темы вы еще не освещали. Имея под рукой весь свой инвентарь контента, вы сможете более эффективно планировать свою контент-стратегию.
5. Чтобы найти потерянные страницы и спланировать стратегии связывания.
Сироты — страницы без входящих ссылок, из-за чего пользователи и поисковые роботы посещают их редко или вообще не посещают. Страницы-сироты могут быть проиндексированы в Google и привлечь случайных пользователей. Однако большое количество страниц-сирот на сайте портит его авторитет: структура сайта не кристально чистая, страницы могут выглядеть бесполезными или неважными, а весь валежник будет снижать общую видимость сайта.
6. Редизайн сайта и изменение его архитектуры.
Чтобы спланировать редизайн веб-сайта и улучшить взаимодействие с пользователем, сначала необходимо найти все его страницы и соответствующие показатели.
Четкая и организованная структура с логической иерархией всех страниц может помочь поисковым системам легче находить ваш контент. Таким образом, все важные URL-адреса должны быть доступны в пределах одного, двух или трех кликов от главной страницы.
Хотя пользовательский опыт не влияет на сканирование и ранжирование, он имеет значение для сигналов качества вашего веб-сайта — успешных покупок, количества вернувшихся посетителей, просмотров страниц на посетителя и множества других показателей, показывающих, насколько ваш веб-сайт полезен для посетителей. .
7. Анализ сайтов конкурентов.
Проводя аудит страниц ваших конкурентов, вы можете глубже изучить их стратегии SEO: выявить их страницы с самым высоким трафиком, страницы с наибольшим количеством ссылок, лучшие источники перехода и т. д. Таким образом, вы можете получить ценную информацию и научиться хорошо работать для ваших конкурентов. Вы можете позаимствовать их методы и сравнить результаты, чтобы увидеть, как улучшить свой собственный сайт.
Существует множество способов найти все страницы веб-сайта, но в каждом случае вы можете использовать для этого свой метод. Итак, давайте посмотрим на плюсы и минусы каждого метода и как его использовать без суеты.
1. Поиск с помощью операторов поиска Google
Поиск Google может быстро помочь найти все страницы веб-сайта. Просто введите «сайт: ваш домен» в строку поиска, и Google покажет вам все страницы веб-сайта, которые он проиндексировал.
Результаты поиска по сайту показывают все URL-адреса, найденные Google на вашем сайте
Однако важно помнить, что результаты поиска, отображаемые оператором «сайт:», не обязательно отражают точное количество проиндексированных страниц вашего сайта.
Во-первых, нет гарантии, что Google проиндексирует каждую страницу сразу после ее сканирования. Он может исключать определенные страницы из индекса по разным причинам: например, некоторые страницы он считает дубликатами или некачественными.
Во-вторых, оператор поиска «сайт:» может также показывать страницы, которые были удалены с вашего веб-сайта, но они хранятся в кэше или в архиве Google.
Таким образом, поисковый запрос «сайт:» — хорошее начало для получения приблизительного представления о размерах вашего сайта. Но чтобы найти остальные страницы, которые могут отсутствовать в индексе, вам понадобятся некоторые другие инструменты.
2. Проверьте файл robots.txt
Robots.txt — это технический файл, который указывает поисковым роботам, как сканировать ваш веб-сайт с помощью правил разрешения/запрета для отдельных страниц или целых каталогов.
Таким образом, файл не покажет вам все страницы вашего сайта. Тем не менее, это может помочь вам найти страницы, доступ к которым запрещен для поисковых роботов.
Инструкции
Ниже приведены инструкции по поиску страниц с ограниченным доступом с помощью robots.txt :
- Найдите файл robots.txt на веб-сайте. Обычно он находится в корневом каталоге, поэтому вы можете ввести example.com/robots.txt, и он там будет.
- Откройте файл в текстовом редакторе или браузере.
- Посмотрите на строку «User-agent», в которой указан поисковый робот, к которому применяются следующие правила.
- Найдите правила «Запретить». В этих строках указываются страницы или каталоги, к которым сканеру поисковой системы не разрешен доступ.
- Если вы их нашли, проверьте заблокированные URL-адреса и каталоги.
Вот пример директив для роботов для YouTube.
Директивы для роботов для веб-сайта YouTube
Проверьте, как это работает. Например, страница регистрации запрещена. Однако вы все равно можете получить его при поиске в Google — обратите внимание, что для страницы нет описательной информации.
Страница, запрещенная директивами robots, отображается в результатах поиска
Необходимо перепроверить правила robots.txt, чтобы убедиться, что все ваши страницы сканируются правильно. Таким образом, вам может понадобиться такой инструмент, как Google Search Console или сканер сайта, чтобы просмотреть его. Я остановлюсь на этом чуть позже.
А пока, если вы хотите узнать больше о назначении файла, прочтите это руководство по сокрытию веб-страниц от индексации.
3. Изучите карту сайта
Карта сайта — это еще один технический файл, который веб-мастера используют для правильной индексации сайта. В этом документе, часто в формате XML, перечислены все URL-адреса на веб-сайте, которые должны быть проиндексированы. Карта сайта является ценным источником информации о структуре и содержании веб-сайта.
Крупные веб-сайты могут иметь несколько карт сайта: поскольку размер файла ограничен 50 000 URL-адресов и 50 МБ, его можно разделить на несколько и включить отдельную карту сайта для каталогов, изображений, видео и т. д. Платформы электронной коммерции, такие как Shopify или Wix автоматически создает карту сайта. Для других есть плагины или инструменты генератора карты сайта для создания файлов.
Инструкции
Помимо всего прочего, карта сайта веб-сайта позволяет легко найти все страницы на нем и убедиться, что они проиндексированы:
- Найдите ссылку на карту сайта в нижнем колонтитуле или верхнем колонтитуле веб-сайта. Карта сайта обычно находится по адресу yourdomain.com/sitemap.xml или аналогичному URL-адресу. Вы также можете проверить файл робота, потому что это наиболее распространенное место для включения ссылки на карту сайта.
- Откройте карту сайта в текстовом редакторе или средстве просмотра XML.
- Посмотрите теги
в файле карты сайта. Эти теги содержат URL-адрес каждой страницы веб-сайта. - Вы можете скопировать URL-адреса из тегов
в электронную таблицу или текстовый документ.
Пример нескольких карт сайта со списком всех страниц веб-сайта
Вам также следует время от времени перепроверять правильность вашей карты сайта, так как у нее тоже могут быть проблемы: она может быть пустой, отвечать кодом 404, кэшироваться давно, или он может просто содержать неправильные URL-адреса, которые вы не хотите отображать в индексе.
Хорошим способом проверки вашей карты сайта является использование инструмента сканирования веб-сайта. В Интернете доступно несколько инструментов для сканирования веб-сайтов, и одним из них является WebSite Auditor, который является мощным инструментом SEO для аудита всего сайта. Давайте посмотрим, как это может помочь вам найти все страницы на веб-сайте и проверить технические файлы.
4. Сканирование с помощью SEO-паука
Практическое руководство
Вот как вы можете использовать WebSite Auditor, чтобы найти все страницы вашего сайта :
- Запустите WebSite Auditor и введите URL-адрес твой сайт для создания нового проекта.
- Установите флажок Дополнительные параметры и завершите настройку, указав точные параметры сканирования. (Если вы еще не знаете, что искать, пропустите расширенную настройку и позвольте поисковому роботу просканировать ваш сайт с настройками по умолчанию.)
- В дополнительных настройках у вас есть несколько параметров, позволяющих убедиться, что сканер веб-сайтов находит все страницы. Например, отметьте «Искать страницы-сироты», и он соберет все URL-адреса без входящих ссылок.
Вы можете указать инструкции для определенного поискового бота или пользовательского агента; указать сканеру игнорировать параметры URL, сканировать сайт, защищенный паролем, сканировать домен отдельно или вместе с поддоменами и т. д.
Настройка поискового робота для поиска всех страниц, в том числе тех, которые не связаны ни с какими другими страницами
После того, как вы нажмете OK , инструмент проведет аудит вашего сайта и соберет все страницы в разделе Структура сайта > Страницы .
WebSite Auditor поможет вам перепроверить правильность оптимизации URL-адресов для поисковых систем. Вы познакомитесь с инструментом через несколько минут, так как настройка выполняется быстро, а интерфейс довольно интуитивно понятен.
Давайте посмотрим, что вы можете получить с помощью инструмента для сканирования веб-сайтов.
Собрать список страниц со всеми их ресурсами
На вкладке Все страницы можно отсортировать список по URL-адресу, названию или любому другому столбцу, щелкнув заголовок столбца.
Получить список всех страниц со всеми ресурсами на них в разделе Структура сайта > Страницы
Загрузить WebSite AuditorВы можете использовать окно поиска для фильтрации списка страниц по ключевому слову или URL страницы. Это может быть полезно, если вы ищете определенную страницу или группу страниц.
Кроме того, вы можете добавить видимые столбцы для представления дополнительной информации об этой странице, такой как метатеги, заголовки, ключевые слова, перенаправления или любой другой элемент SEO на странице.
Наконец, вы можете щелкнуть любой URL-адрес, чтобы просмотреть все ресурсы на странице в нижней половине рабочей области.
Все данные можно обрабатывать внутри инструмента или копировать/экспортировать в формате CSV или Excel.
Получить списки страниц, затронутых техническими ошибками
Раздел Аудит сайта покажет вам списки страниц, разбитые по типам ошибок, например:
- Дублирующиеся проблемы
- Неверные перенаправления и цепочки перенаправлений
- Страниц запрещено индексировать
- Сломанные ресурсы
Поиск всех страниц сайта по типу ошибок
Загрузить WebSite AuditorПод каждым типом проблемы вы увидите объяснение того, почему этот фактор важен, и несколько предложений по его устранению.
См. визуализированную структуру сайта
Кроме того, вы можете изучить визуальную карту сайта в Структура сайта > Визуализация , которая показывает отношения между всеми вашими URL-адресами. Интерактивная карта позволяет добавлять или удалять страницы и ссылки для настройки структуры сайта. Вы можете пересчитать значение Internal PageRank и проверить количество просмотров страниц (отслеживаемое Google Analytics).
Просмотреть все страницы сайта в визуальной карте сайта
Скачать WebSite AuditorИспользовать инструменты генератора для проверки технических файлов
Кроме того, WebSite Auditor также проверяет доступность файла robots.txt и карты сайта.
Позволяет редактировать технические файлы в инструментах веб-сайта и загружать их прямо на ваш сайт с соответствующими настройками.
Создание карты сайта в WebSite Auditor
При редактировании файлов не нужно соблюдать какой-либо специальный синтаксис — просто выберите нужные URL и примените нужные правила. Затем нажмите, чтобы сгенерировать файлы и сохранить их на свой компьютер или загрузить на сайт через FTP.
Редактирование директив для роботов в WebSite Auditor
Загрузить WebSite Auditor5. Проверьте свои страницы в Search Console
Еще один отличный инструмент для обнаружения всех страниц вашего сайта — Google Search Console. Это поможет вам проверить индексацию страниц и выявить проблемы, которые мешают поисковым роботам корректно индексировать эти URL-адреса.
Инструкции
Вы можете получить разбивку всех ваших страниц по их статусу индексации, включая те страницы, которые еще не проиндексированы .
Вот как найти все страницы вашего сайта с помощью Search Console:
1. Перейдите к отчету об индексировании и нажмите Просмотр данных об индексированных страницах . Вы увидите все страницы, которые поисковый бот последний раз просканировал на вашем сайте. Однако имейте в виду, что в таблице будет ограничение до 1000 URL-адресов. Существует быстрый фильтр для сортировки всех известных страниц по всем представленным URL-адресам и т. д.
Все проиндексированные страницы в Search Console
2. Включите вкладку Не индексируется . Ниже инструмент дает вам подробную информацию о том, почему каждый URL-адрес не проиндексирован.
Все страницы сайта, которые Google еще не проиндексировал
Нажмите на каждую причину и просмотрите URL-адреса, затронутые проблемой.
Сложность в том, что вы получите не только основные URL своих страниц, но и анкорные ссылки, страницы пагинации, параметры URL и прочий мусор, требующий ручной сортировки. И список может быть неполным из-за ограничения в 1000 записей в таблице.
Помимо прочего, имейте в виду, что разные поисковые системы могут иметь разные правила индексации, и вам нужно использовать их инструменты для веб-мастеров, чтобы найти и решить такие проблемы. Например, используйте инструменты Bing Webmaster, Yandex Webmaster, Naver Webmaster и другие для проверки индексации в соответствующих поисковых системах.
6. Используйте Google Analytics
Думаю, Google Analytics — одна из наиболее широко используемых аналитических платформ, поэтому любой владелец или редактор веб-сайта знаком с ней. На смену старой доброй Universal Analytics скоро придет Google Analytics 4. Итак, давайте посмотрим на обе версии инструмента.
Инструкции
Чтобы собрать страницы вашего сайта в Google Universal Analytics , выполните следующие действия:
- В своей учетной записи Google Analytics выберите веб-сайт, который хотите изучить.
- Перейдите к модулю «Поведение» на левой боковой панели.
- Выберите «Контент сайта» > вкладку «Все страницы». Теперь вы должны увидеть список всех страниц вашего веб-сайта, которые были отслежены Google Analytics.
Просмотр всех ваших страниц в Universal Analytics
Вы увидите страницы со статистикой поведения пользователей, такой как просмотры страниц, показатель отказов, среднее время на странице и т. д. Обратите внимание на страницы с наименьшим количеством просмотров за все время — возможно, это страницы-сироты.
Чтобы воссоздать аналогичный поток в Google Analytics 4 :
- Перейдите в раздел Отчеты > Модуль взаимодействия.
- Выберите раздел Страницы и экраны.
- Измените измерение с заголовка страницы и класса экрана на путь к странице и класс экрана. Теперь вы должны увидеть таблицу, показывающую все URL-адреса на вашем веб-сайте, которые были отслежены Google Analytics 4.
Поиск всех страниц вашего веб-сайта в Google Analytics 4
Как и в случае с консолью, он будет включать параметры URL и тому подобное. Вы можете экспортировать список страниц в виде листа CSV или Excel, нажав кнопку Экспорт в верхней части страницы.
7. Анализ журналов
Некоторые веб-сайты действительно огромны, и даже мощные поисковые роботы могут с трудом просканировать все их страницы. Анализ логов — хороший вариант для поиска и изучения всех страниц на крупных веб-сайтах.
Анализируя файл журнала вашего веб-сайта, вы можете определить все страницы, на которые приходят посетители из Интернета, их HTTP-ответы, частоту посещения краулерами страниц и т. д.
Файлы журналов хранятся на вашем сервере, и вам потребуется необходимый уровень доступа для их извлечения и инструмент для анализа журналов. Таким образом, этот метод больше подходит для технически подкованных людей, веб-мастеров или разработчиков.
Как сделать
Вот шаги, чтобы найти все страницы вашего сайта с помощью анализа журнала:
- Загрузите журналы сервера вашего веб-сайта и откройте их с помощью инструмента анализа журналов по вашему выбору.
- Фильтровать данные журнала по коду состояния HTTP. Это поможет вам определить все страницы на вашем сайте, которые привлекли посетителей.
- Найдите записи в журнале с кодом состояния 200, который указывает на то, что доступ к странице был выполнен успешно. Вы также можете фильтровать по другим кодам состояния, чтобы найти страницы, которые были перенаправлены, например, с переадресацией 301 или 302.
- Как и в других инструментах, вы можете экспортировать список страниц в электронную таблицу или другой формат для дальнейшего анализа.
8. Работа с вашей CMS
Еще один способ найти все страницы на веб-сайте — обратиться к вашей системе управления контентом (CMS), поскольку она будет содержать все URL-адреса на веб-сайте, который вы когда-то создали . Примером CMS являются WordPress или Squarespace, которые содержат инструменты для создания веб-сайтов для редактирования контента в различных областях — новости и блоги, электронная коммерция, корпоративные сайты и тому подобное.
Инструкции
Хотя CMS сильно различаются по внешнему виду, общие шаги применимы к большинству из них:
- Войдите в панель управления CMS и перейдите на страницу или в раздел публикации.
- Найдите список всех страниц или сообщений на вашем веб-сайте — в боковой панели, подменю или на отдельной странице.
- Щелкните ссылку Все страницы или Все сообщения, чтобы просмотреть список всех страниц вашего веб-сайта.
Имейте в виду, что могут быть категории, сообщения в блогах или целевые страницы, которые представляют собой разные типы страниц, которые могут принадлежать разным разделам CMS.
Поиск всех страниц вашего сайта в WordPress CMS
Большинство CMS позволяют сортировать URL-адреса по дате их создания, автору, категории или другим критериям. Вы также можете использовать окно поиска, чтобы отфильтровать список страниц по ключевым словам или заголовкам.
Резюме
Чтобы найти все страницы веб-сайта, существует множество методов и инструментов. Выбор зависит от цели и объема работы.
Я надеюсь, что вы нашли этот список полезным и теперь сможете легко собрать все страницы вашего сайта, даже если вы новичок в SEO.
Если у вас есть вопрос, на который вы еще не ответили, не стесняйтесь задать его в нашей группе пользователей на Facebook.
Редактировать Твиттер LinkedIn Фейсбук Электронная почта
- Статья
Одним из способов настройки поиска в SharePoint является создание пользовательской страницы результатов поиска для сайта. Это позволяет использовать созданную вами страницу, а не страницу результатов поиска Microsoft по умолчанию. Это дает вам больше гибкости в том, как результаты поиска выглядят для ваших пользователей.
Примечание
Чтобы внести изменения в страницу результатов поиска Microsoft по умолчанию, которая доступно по умолчанию, см. раздел Настройка страницы результатов поиска.
Настраиваемая страница результатов позволяет создать новую страницу, которую можно использовать для управления макетом и дизайном результатов поиска в соответствии с потребностями вашей организации. Вы можете использовать любые встроенные веб-части, веб-части поиска с открытым исходным кодом из сообщества SharePoint Patterns and Practices, а также любые настраиваемые веб-части, разработанные с помощью SharePoint Framework.
Настройка страницы результатов
Чтобы настроить пользовательскую страницу результатов в SharePoint Online, выполните следующие действия:
Перейдите на сайт, на котором вы хотите настроить пользовательскую страницу результатов, и перейдите к Параметры сайта > Параметры семейства веб-сайтов. > Настройки поиска .
В настройках поиска отмените выбор из Использовать те же настройки страницы результатов, что и у моего родителя , выберите Отправлять запросы на пользовательскую страницу результатов и введите значение URL страницы результатов: . Затем сохраните изменения. Используемый здесь URL-адрес должен относиться к странице, которую вы создали для использования в качестве настраиваемой страницы результатов, например
https://contoso.sharepoint.com/sites/search/SitePages/results.aspx
. См. этот сеанс Microsoft Ignite для демонстрации этой функции.
Примечание
Пользовательская страница результатов должна находиться в том же домене, что и ваш сайт, но не обязательно в том же семействе сайтов.
Кроме того, вы можете использовать команду Set-PnPSearchSettings SharePoint PnP PowerShell, чтобы установить значение вместо использования страницы настроек сайта.
После настройки пользовательская страница результатов поиска отображается при поиске с помощью поля поиска Microsoft, которое появляется на панели навигации в верхней части страницы и используется при вводе поиска со страниц сайта или с домашней страницы сайта. Он не используется при поиске в списке, библиотеке или на странице содержания сайта. Вы можете использовать ссылку, чтобы расширить область поиска из результатов поиска в списках и библиотеках, чтобы перейти на страницу пользовательских результатов.
Изменение макета страницы настраиваемых результатов
Макет страницы с именем HeaderlessSearchResults можно использовать, чтобы страница результатов поиска выглядела ближе к стандартным результатам поиска. Этот новый макет может быть активен только для страниц, которые настроены как страницы результатов пользовательского поиска.
Чтобы установить макет страницы, вы можете использовать Set-PnPPage PnP PowerShell команда с -LayoutType HeaderlessSearchResults.