Разное

Как работают поисковики: Как работают поисковые системы / Хабр

29.08.2020

Как работают поисковые системы и почему это важно для бизнеса?

Поисковые системы — это окно в Интернет для бизнеса. Они собирают колоссальные объемы информации на каждом веб-сайте, разбивают ее и принимают решение о том, насколько хорошо тот отвечает на конкретный запрос. Но с таким большим количеством данных, как на самом деле работают поисковые системы?

Для более эффективного поиска, классификации и ранжирования миллиардов страниц, составляющих Интернет, поисковые системы используют сложные алгоритмы, которые принимают решения о качестве и релевантности статьи или видеоролика.

Это сложный процесс, который предполагает обработку значительных объемов данных, и все они должны быть представлены в максимально удобном для конечного пользователя виде.

Поисковые системы анализируют все это через многочисленные различные факторы ранжирования на основе запроса пользователя. Это актуальность вопроса, введенного пользователем, качество контента, скорость, метаданные и многое другое.

Каждая точка данных объединяется, чтобы помочь поисковой системе рассчитать общее «качество» страницы. Затем сайт оценивается на основе этих расчетов и предоставляется пользователю ниже или выше на странице результатов поиска (SERP).

Знание скрытых закулисных процессов, которые происходят в поисковых системах для принятия этих решений, помогает компаниям понять, почему определенные фрагменты контента имеют высокий рейтинг, но также помогает создавать новый контент с потенциально более высоким ранжированием.

Давайте взглянем на общие процедуры, на которых построен каждый алгоритм поисковой системы, а затем разберем механизмы их работы на примере гигантов Google и Youtube.

Как работают поисковые системы

Чтобы быть эффективными, поисковые системы должны точно интерпретировать доступную информацию и логически представлять ее пользователям. Для этого системы выполняют три основных действия — это сканирование, индексация и ранжирование.

Благодаря этим действиям они обнаруживают недавно опубликованный контент, сохраняют информацию на своих серверах и организуют ее для нашего потребления. Давайте разберем, что происходит во время каждого из этих действий:

  • Сканирование. Поисковые системы отправляют веб-сканеры, известные как боты или пауки, для просмотра содержимого сайта. Уделяя пристальное внимание новым веб-сайтам и недавно измененному контенту, сканеры анализируют URL-адреса, карты сайта и код, чтобы определить тип отображаемого контента.

  • Индексация. После сканирования сайта системы должны решить, как организовать информацию. Процесс индексации заключается в том, что они проверяют данные веб-сайта на наличие положительных и отрицательных сигналов ранжирования и сохраняют их в соответствующем месте на своих серверах.

  • Ранжирование. В процессе индексации поисковые системы начинают принимать решения о том, где отображать конкретный контент на странице результатов поиска. Ранжирование осуществляется путем оценки ряда факторов на основании предпочтений запроса пользователя, качества и релевантности.

В ходе этого процесса компьютеры должны определить ценность, которую любой веб-сайт может потенциально предоставить конечному пользователю. Эти решения руководствуются алгоритмом. Понимание того, как работает поисковый алгоритм, помогает создавать эффективный контент, который оценивается выше для каждой платформы.

Будь то RankBrain для Google и YouTube, «Дерево граф и пространственных разделов» (SPTAG) для Bing или проприетарная кодовая база для DuckDuckGo, каждая платформа использует уникальную серию факторов ранжирования.

Если бизнес будет учитывать эти факторы при создании контента для веб-сайта, адаптировать определенные страницы для хорошего ранжирования станет проще.


Алгоритмы поисковых систем Google и Youtube

Каждая поисковая система обрабатывает результаты поиска по-своему.

Мы рассмотрим две наиболее популярные платформы на сегодняшнем рынке (включая платформу для видео), и разберем, как они принимают решения о качестве и релевантности контента.

Как работает поисковая система Google

Google — самая популярная поисковая система на планете. Она занимает более 90% рынка, получая более 3,5 миллиарда индивидуальных поисковых запросов ежедневно. Известно, что алгоритмы поиска Google довольно хитро определяют приоритеты веб-сайтов и порой вызывают недоверие и критичное отношение пользователей.

Новые сайты создаются каждый день. Google может найти эти страницы, перейдя по ссылкам из существующего контента, который они просканировали ранее, или когда владелец веб-сайта отправит свою карту сайта напрямую.

Любые обновления существующего контента также могут быть отправлены в Google, если попросить пересмотреть определенный URL. Это делается через Google Search Console.

Хотя Google не сообщает, как часто просматриваются сайты, в конечном итоге любой обновленный контент, связанный с существующим контентом, обязательно находят.

Когда боты собирают достаточно информации, они возвращают ее Google для индексации.

Индексация начинается с анализа данных сайта, включая текстовый контент, изображения, видео и техническую структуру сайта. Google ищет позитивные и негативные рейтинговые сигналы, такие как ключевые слова и свежесть сайта, чтобы понять качество просканированной страницы и ее важность для пользователя.

Индекс сайтов Google содержит миллиарды страниц и 100 000 000 гигабайт данных.

Для организации этой информации Google использует алгоритм машинного обучения под названием RankBrain и базу знаний Knowledge Graph. Они работает вместе, чтобы помочь системе предоставить наиболее релевантный контент для пользователя. Как только индексация сайта завершена, Google переходит к ранжированию.

Все происходящее до этого момента выполняется незримо для людей, в фоновом режиме, прежде чем пользователь начнет взаимодействовать с поисковыми функциями Google.

Ранжирование происходит в зависимости от того, что ищет пользователь.

При этом Google смотрит на пять основных факторов:

  • Значение запроса. Какова цель конечного пользователя? Google использует запросы, чтобы определить намерения человека (например, купить машину или посмотреть ее характеристики). Он анализирует каждый запрос, используя сложные языковые модели, основанные на прошлых поисках и поведении людей.

  • Релевантность веб-страницы. После того как Google определил цель поискового запроса пользователя, он просматривает содержание веб-страниц с рейтингом, чтобы определить, какая из них является наиболее релевантной. Основным фактором является анализ ключевых слов. Ключевые слова на веб-сайте должны соответствовать пониманию Google вопроса, заданного пользователем.

  • Качество контента. Подбирая ключевые слова, Google делает еще один шаг и проверяет качество контента на нужных страницах. Это помогает точнее расставлять приоритеты, глядя на авторитет данного сайта, а также рейтинг страницы и свежесть.

  • Удобство использования страниц. Google отдает предпочтение сайтам, которые просты в использовании. Юзабилити охватывает все, от скорости до отзывчивости.

  • Дополнительный контекст и настройки. Этот шаг настраивает поиск по прошлому взаимодействию с пользователем и определенным настройкам на платформе Google.

Как только весь этот объем информации будет качественно обработан, алгоритм Google предоставит на экран монитора результаты поиска, которые выглядят примерно так:


Давайте разберем страницу результатов поиска:

  • Пользовательский запрос. Вопрос, заданный пользователем Google.

  • Покупки в Google. Система рассматривает цель запроса как поиск товары для покупки. В результате из индекса извлекают продукты, соответствующие этому назначению, и отображают их первыми в результатах.

  • Избранный фрагмент. Google представляет конкретную информацию из результатов поисковой выдачи, чтобы пользователю можно было легче просматривать, не покидая страницу результатов поиска.

  • Результаты с самым высоким рейтингом. Первый сайт, указанный в результатах — это сайт, который, по мнению Google, наилучшим образом соответствует цели запроса пользователя. Лучший результат выбирается, основываясь на пяти факторах ранжирования, которые мы обсуждали ранее.

  • Люди также ищут. данное поле является результатом Knowledge Graph. Оно дает пользователям быстрый способ переходить к другому поиску, который может лучше соответствовать их намерениям.

Такое подробное предоставление информации стало возможным только потому, что система разобрала на фрагменты и сохранила в памяти миллиарды страниц. Прежде чем пользователь выполнит поиск, Google проверил сайты, чтобы выяснить, каким ключевым словам и намерениям они лучше всего соответствуют.

Этот процесс позволяет в течение доли секунды заполнять страницы результатов при выполнении поиска и помогает Google выдавать нам наиболее релевантный контент.

Как самая популярная поисковая система в мире, Google более или менее сумел создать основу того, как остальные современные поисковики сегодня смотрят на контент.

Большинство маркетологов специально адаптируют свой контент для ранжирования в Google. С одной стороны, это правильное использование сил и бюджетов. С другой стороны, они потенциально упускают возможности на продвижения контента на других платформах.

Алгоритм поиска YouTube

Платформа YouTube является самым популярным видео-хостингом. Их поисковая система эффективно работает по правилам, аналогичным правилам Google, которому принадлежит платформа, и она фокусируется на ключевых словах и релевантности.

Алгоритм разбит на две отдельные функции — ранжирование видео и поиск соответствующих рекомендаций. Ниже мы разберем их более подробно.

Конкретные причины, по которым одни видео стоят выше других, как и все внутри Google, скрыты от посторонних глаз. Тем не менее, большинство экспертов склоняются к новизне видео и частоте загрузки канала как к наиболее важным факторам.

С точки зрения рекомендаций, в недавнем исследовательском документе были подробно перечислены основные приоритеты YouTube, такие как масштаб, свежесть и шум:

  • Масштаб. 300 часов видео загружается на YouTube каждую минуту, и платформа насчитывает уже около 1,3 миллиарда пользователей. Это значительно усложняет анализ информации, поэтому теперь основной задачей алгоритма является просеивание огромного объема данных для каждого пользователя.

  • Свежесть. YouTube пытается уравновесить свой выбор, основываясь на том, как давно было загружено видео, а также на поведении пользователей в прошлом.

  • Шум. Из-за разного контента, который большинство пользователей смотрят на YT, искусственному интеллекту трудно в любой момент проанализировать, что является наиболее актуальным — анализ «шума» помогаем отсеять ненужное.

Эти и, возможно, другие факторы ранжирования приводят к формированию страниц с рекомендациями для каждой отдельной учетной записи пользователя. В результате мы наслаждаемся теми роликами, которые нам действительно интересны.

Это показывает, как «Подписки» влияют предоставление результатов поиска YouTube. Когда пользователь подписывается на определенный канал, это повышает его рейтинг в результатах поиска, рекомендациях и выборе, что смотреть дальше.

Остальные факторы ранжирования включают то, что пользователь смотрит, как долго он увлечен различными видео, и какова общая популярность видео на YouTube.

Разберем результаты поиска на примере:

Лучший результат — наиболее просматриваемое видео. Затем следует более новая загрузка с меньшим количеством просмотров, но с точным соответствием ключевых слов. Третье видео имеет больше просмотров, чем второе, но без точного соответствия ключевых слов — это также несколько более старая загрузка.

Исходя из этих результатов, мы видим, что популярность рождает популярность и является одним из важнейших факторов ранжирования YouTube — и даже выше, чем новизна видео с точным соответствием ключевых слов.

Чтобы получить хорошие рейтинги на YouTube, вам потребуется авторитетный профиль и постоянный темп загрузки. Их ориентация на популярность и силу профиля требует больше инвестиций в маркетинг — эти вложения быстро окупаются для брендов, которые концентрируют свои усилия на видеоплатформе.

Заключение

Понимание того, как работают поисковые системы, помогает создавать лучший контент.

Когда вы знаете, как те или иные платформы отображают свои результаты, легче создавать контент с потенциалом ранжирования. Это понимание также помогает вам диагностировать, почему другие типы контента оцениваются лучше или хуже, чем ваши собственные.

На основе этого мы собрали пять советов, которые помогут создать лучший контент:

  • Понимание намерений пользователя. Каждая поисковая система предпочитает контент, который наиболее релевантный поисковому запросу пользователя.

  • Соответствующие ключевые слова. Включение релевантных ключевых слов в контент поможет поисковым системам легче находить и индексировать страницы.

  • Знание целевой аудитории. Сопоставление ключевых слов потребует глубокого понимания клиентов и того, как они думают о вашем продукте и вашем рынке.

  • Новый контент помогает повысить рейтинг. Публикация нового контента или обновление существующего помогает повысить рейтинг сайта и авторитет бренда.

  • Получение авторитетных ссылок. Чем больше людей ссылаются на страницу, тем лучше она будет выглядеть для поисковых систем. Это будет говорить о ее высокой ценности для пользователей и соответствии содержания.

В конце концов, все сводится к пониманию клиента. Вы не можете создавать контент, который занимает хорошие позиции, если не знаете, что нужно целевой аудитории.

Как работают поисковые системы | «АртКлён»

Для того, чтобы проводить SEO продвижение, важно понимать, что такое поисковые системы и как они работают.


Поисковая система – постоянно работающий и развивающийся программно-аппаратный комплекс, цель которого находить в интернете релевантную информацию в ответ на запрос пользователя. Кроме этого, услуга поиска — это коммерческая предприятие, цель которого – получение прибыли с рекламы. По этой причине качество поиска, его скорость, актуальность и релевантность – главные приоритеты владельцев поисковых систем.  

Не будем лезть глубоко в дебри и выделим 4 основных процесса поисковых систем.

— Индексация

— Архивация

— Анализ запроса

— Ранжирование

 

Индексация

Индексация — это процесс посещения сайтов и сбора информации, которая находится на них.  Посещения сайтов осуществляют так называемые поисковые роботы, которые ходят по ресурсу переходя по ссылкам на его страницах и собирают информацию. Для упорядочивания этого процесса владельцы создают файлы Sitemap и Robots.txt.

Роботы бывают разные в зависимости от выполняемых функций. Для сканирования картинок, видео, мобильных версий, фавиконов, качества страниц и многого другого. Задача каждого робота собрать новую информацию либо обновить уже имеющуюся. Нужно понимать, что от момента внесения изменений на сайте до попадания в поиск должно пройти время – 1, 2 недели. Это время нужно для обхода и обновления индексной базы.

Архивация

Для того чтобы сократить место, которое занимает информация с вашего сайта в базе поисковой системы, происходит процесс архивации. На этой стадии из текста исключается вся ненужная информация и слова приводятся к единой форме. В результате все слова хранятся отдельно в словаре поисковой системы, а в индекс сайта попадают только их номера и порядок слов в предложении. Это позволяет значительно уменьшить размер базы как следствие увеличить скорость ее работы.

Анализ запроса

Когда система получает запрос от пользователя от проводит его анализ и другие манипуляции для понимания что-то конкретно человек имел ввиду и какую информацию ему показать в ответ.

На этом этапе происходит определение языка, исправление ошибок, определение тематики запроса, подбор синонимов и многое другое. После этого запрос приводится в единую форму и происходит поиск по индексной базе.

Ранжирование

После того как найдена релевантная информация, осталось только определить в каком порядке расположить ресурсы. Происходит процесс ранжирования. 

По сути, сайты располагаются в порядке их релевантности или значимости для пользователя. Определение релевантности – процесс, содержащий множество формул и учитывающий несколько сотен факторов, их веса и комбинации. Точная формула является коммерческой тайной и надежно охраняется.

Обновления поисковой системы

Периодически у поисковой системы происходят апдейты, вследствие появления новой информации и изменения алгоритмов ранжирования. Это может кардинально изменить позиции сайтов в выдачи и добавить работы SEO специалистам. Последние же ждут апдейты, когда все плохо и молятся когда все хорошо, но стоит признать – апдейты это то что дает им постоянную работу в айти индустрии.

Как работают поисковые системы?

Главная / Техническое SEO / Основы поисковых систем / Как работают поисковые системы?

Руководство по работе поисковых систем. Рассматриваемые темы включают процессы сканирования и индексирования поисковыми системами, а также такие понятия, как бюджет сканирования и PageRank.

Сэм Марсден

SEO и контент-менеджер

| 3 минуты чтения

В этом руководстве мы познакомим вас с тем, как работают поисковые системы. Это будет охватывать процессы сканирования и индексации , а также такие понятия, как краулинговый бюджет и PageRank .

Поисковые системы работают, просматривая сотни миллиардов страниц с помощью своих собственных поисковых роботов. Эти поисковые роботы обычно называют поисковые роботы или пауки . Поисковая система перемещается по сети, загружая веб-страницы и переходя по ссылкам на этих страницах, чтобы обнаружить новые страницы, которые стали доступными.

 

Индекс поисковой системы

Веб-страницы, обнаруженные поисковой системой, добавляются в структуру данных, называемую индексом.

Индекс включает все обнаруженные URL-адреса вместе с рядом соответствующих ключевых сигналов о содержании каждого URL-адреса, таких как:

  • ключевых слов , обнаруженных в содержании страницы – какие темы охватывает страница?
  • Тип контента , который сканируется (с использованием микроданных, называемых схемой) — что содержится на странице?
  • свежесть страницы – как давно она обновлялась?
  • Предыдущее взаимодействие пользователей со страницей и/или доменом — как люди взаимодействуют со страницей?

 

Какова цель алгоритма поисковой системы?

Целью алгоритма поисковой системы является предоставление релевантного набора высококачественных результатов поиска, которые максимально быстро удовлетворят запрос/вопрос пользователя.

Затем пользователь выбирает вариант из списка результатов поиска, и это действие, наряду с последующими действиями, используется для будущих знаний, которые могут повлиять на ранжирование в поисковых системах в будущем.

 

Что происходит при выполнении поиска?

Когда пользователь вводит поисковый запрос в поисковую систему, все страницы, которые считаются релевантными, идентифицируются из индекса, и используется алгоритм для иерархического ранжирования релевантных страниц в наборе результатов.

Алгоритмы, используемые для ранжирования наиболее релевантных результатов, различаются для каждой поисковой системы. Например, страница с высоким рейтингом по поисковому запросу в Google может не иметь высокого рейтинга по тому же запросу в Bing.

В дополнение к поисковому запросу поисковые системы используют другие релевантные данные для возврата результатов, в том числе:

  • Местоположение «кафе рядом со мной» или «время кино».
  • Обнаружен язык — поисковые системы будут возвращать результаты на языке пользователя, если он может быть обнаружен.
  • Предыдущая история поиска — поисковые системы будут возвращать разные результаты по запросу в зависимости от того, что ранее искал пользователь.
  • Устройство — в зависимости от устройства, с которого был сделан запрос, может быть возвращен другой набор результатов.

 

Почему страница может не индексироваться?

В ряде случаев URL не индексируется поисковой системой. Это может быть связано с:

  • Исключения файла Robots.txt — файл, который сообщает поисковым системам, что им не следует посещать на вашем сайте.
  • Директивы на веб-странице , говорящие поисковым системам не индексировать эту страницу ( тег noindex ) или индексировать другую подобную страницу ( канонический тег ).
  • Алгоритмы поисковых систем оценивают страницу как низкокачественную , имеющую низкокачественный контент или дублирующийся контент .
  • URL возвращает страница ошибки (например, код ответа HTTP 404 Not Found ).

Далее: Поисковое сканирование


 

Дополнительные учебные ресурсы

Полное руководство по здоровью веб-сайтов

Вот как добиться успеха в поиске в будущем, включив здоровье веб-сайтов и SEO в свои более широкие маркетинговые стратегии.

Как сделать свой сайт мультипликатором производительности для поколения спроса

Узнайте, как использовать здоровье веб-сайта и SEO в качестве мультипликаторов производительности для усилий маркетинговых групп по формированию спроса.

Сэм Марсден

SEO и контент-менеджер

Сэм Марсден — бывший менеджер Lumar по поисковой оптимизации и контенту, а в настоящее время — руководитель отдела SEO в Busuu. Сэм регулярно выступает на маркетинговых конференциях, таких как SMX и BrightonSEO, и является автором отраслевых изданий, таких как Search Engine Journal и State of Digital.

Как работают поисковые системы

Хотите правильно оптимизировать свой сайт и настроиться на успех? Тогда очень важно знать, как поисковые системы работают сегодня.

Поисковые системы играют важную роль в повседневной жизни. От рецептов до новостей, от изображений до видео, мы используем поисковые системы, такие как Google, чтобы помочь нам с информацией. Но что такое поисковые системы на самом деле? Как они работают? Каков на самом деле процесс поиска информации?

Поисковым системам приходится просматривать миллионы веб-страниц, чтобы предоставить наиболее полезную информацию для каждого поискового запроса. Затем они должны решить, как организовать эту информацию и представить ее пользователю поиска.

Google и другие поисковые системы отдают предпочтение опыту своих поисковых пользователей над чем бы то ни было. Поэтому их цель — предоставить наилучшие результаты для каждого запроса.

Итак, для пользователей поиска все просто. Они вводят свой запрос, и поисковые системы просматривают их индекс веб-страниц, чтобы найти наилучшие совпадения. Затем эти совпадения ранжируются по алгоритму и отображаются на страницах результатов поисковой системы (SERP).

Для маркетологов поисковые системы — это инструменты, с помощью которых можно увидеть ваш контент или ваши продукты. Но как вы можете оптимизировать свой сайт, чтобы настроить его на успех? В чем разница между сканированием, индексированием и ранжированием и зачем вам это нужно знать?

Google и другие поисковые системы используют различные элементы. Во-первых, они используют поисковые роботы для сканирования страниц для получения данных. Затем они индексируют их для извлечения в будущих поисковых запросах.

В конечном счете, они ранжируют проиндексированное содержимое на основе множества факторов. Эти факторы являются частью алгоритма определения того, какие результаты являются релевантными, а какие качественными.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *