Влияние параметров интернет-сайта на его индексацию в поисковых системах
В современных условиях интернет развивается стремительными темпами. С каждым днём интернет сайтов становится всё больше и больше, конкуренция растёт, и поэтому постоянно возникает вопрос – как привлечь новых посетителей на недавно созданный сайт.
Обычно, большинство посетителей приходят на сайт с поисковых систем. В России наиболее популярными являются поисковые системы, разработанные компаниями Яндекс и Google. С них приходит основная часть посетителей.
Поэтому очень актуальным вопросом на сегодняшний день является вопрос повышения позиций интернет сайта в результатах поиска поисковых систем Яндекс и Google. Но чтобы сайт появился в результатах поиска, нужно чтобы этот сайт был проиндексирован поисковой системой. Индексация интернет сайта – это процесс занесения содержимого интернет сайта в базу данных поисковой системы. Сайт заносится в базу постранично, поэтому очень важно добиться индексации как можно большего числа страниц сайта. А для этого нужно знать, что влияет на процесс индексации.
В течение нескольких месяцев проводились исследования, в результате которых было выяснено, что на процесс индексации влияют следующие факторы: структура и содержание сайта, доменная зона, хостинг, на котором расположен сайт, наличие гиперссылок на сайт с других сайтов. Наиболее важными факторами здесь являются структура и содержание сайта. Поэтому, при создании сайтов и разработке систем для создания сайтов очень важно обратить внимание на многие моменты, чтобы индексация прошла успешно.
Первый момент, на который стоит обратить внимание – это содержание страниц сайта. В идеале, текст каждой страницы должен быть уникальным и максимально читабельным. Он не должен повторяться на других страницах и не должен быть заимствован с других сайтов. В нём не должно быть грамматических и синтаксических ошибок, поскольку это может привести либо к удалению сайта из базы поисковой системы (так называемое выпадение сайта из индекса), либо к повышению позиций сайта по ошибочным запросам. Желательно, чтобы текст был поделён на абзацы — это важно с точки зрения поисковой системы Яндекс. Текст не должен содержать большое количество одинаковых слов или словосочетаний, поскольку это может быть расценено поисковой системой как поисковый спам, и сайт будет удален из базы поисковой системы.
Так, для эксперимента было создано 20 сайтов на русском языке, которые были размещены на бесплатном хостинге (http://narod.yandex.ru/). Все сайты были добавлены для индексации в системе Яндекс через специальную форму добавления сайта, которую предоставляет сама поисковая система. Дополнительных способов ускорения индексации не применялось. 5 сайтов были наполнены бессмысленным текстом – 2 из них были проиндексированы, но через неделю они выпали из индекса, 3 из них не были проиндексированы. Следующие 5 сайтов были созданы с использованием статей, заимствованных с других сайтов. 4 из них были проиндексированы через 2 недели. Эти сайты продержались в индексе поисковой системы около месяца. 1 сайт не был проиндексирован. Остальные 10 сайтов были созданы с различными нарушениями рекомендаций по составлению текстов для страниц сайта. Сайты с чрезмерным количеством опечаток были проиндексированы, но через 2-3 недели выпали из индекса. Сайты с большим количеством повторяющихся слов либо не были проиндексированы вообще, либо быстро выпадали из индекса, в зависимости от тематики сайта и частоты повторения слов.
Подобный эксперимент был проведен с поисковой системой Google. Было создано несколько сайтов, которые были размещены на платном хостинге на субдоменах уже существующего домена. В ходе эксперимента было установлено, что поисковая система Google немного по-другому реагирует на содержание страниц сайта. Сайты, содержащие бессмысленный текст остаются в индексе Google значительно дольше, чем в индексе Яндекса, однако Google очень плохо индексирует сайты, содержащие статьи, заимствованные у других сайтов. Также Google обращает внимание на несуществующие страницы и страницы с одинаковым текстом. То есть, если на сайте присутствует большое количество ссылок на страницы, которых не существует, или сайт содержит много страниц с одинаковым содержанием, то такой сайт в большинстве случаев не будет проиндексирован.
Помимо содержания сайта на процесс индексации влияет структура сайта. Под структурой сайта понимается совокупность многих параметров, начиная от шаблона сайта и способа перелинковки страниц, и заканчивая такими параметрами, как наличие или отсутствие xml карты сайта, наличие внутренних ссылок и даже тип url страниц сайта. Учитывается также и тип сайта. Так, например, flash сайты хоть и индексируются, но происходит это далеко не всегда удачно, поскольку некоторые ссылки могут игнорироваться, а это приводит к попаданию в индекс небольшого числа страниц. Лучше всего индексируются простые html сайты, созданные без использования визуальных редакторов и различных систем администрирования сайтов.
Немаловажную роль играет перелинковка страниц между собой. Так, чтобы поисковый робот нашел страницу, она должна находиться не далее чем в трёх кликах от главной страницы. Поэтому, если на сайте много страниц, желательно разделять их на категории. Если разделить сайт на категории нельзя, то выходом может служить xml карта сайта, в которой указываются адреса всех страниц сайта.
Меню сайта не должно быть построено при помощи языка программирования javascript, т.к. поисковые системы не обрабатывают javascript код. В качестве эксперимента было создано 2 сайта про автомобили. В первом сайте меню было создано при помощи javascript, во втором меню было создано средствами html и css. Через 3 недели во втором сайте было проиндексировано 15 страниц из 23, а в первом сайте только одна главная страница. Через 4 недели во втором сайте было проиндексировано 23 страницы из 23, а в первом по-прежнему одна. Результаты эксперимента говорят о том, что если при создании сайта используется меню, построенное на javascript, то обязательно нужно дополнительно создавать xml карту сайта, чтобы поисковый робот нашел все страницы сайта.
Карта сайта в xml формате очень хорошо помогает индексации в поисковых системах, особенно это касается поисковой системы Google. В ней достаточно добавить карту сайта в специальном разделе для вебмастеров, и вскоре сайт будет проиндексирован. Причём индексация большого количества страниц займёт меньше времени, чем в случае отсутствия карты сайта.
При создании страниц сайта важно, чтобы url страниц были понятны человеку и содержали ключевые слова. Например, страницу про автомобили лучше назвать auto.html или auto-for-you.html, но не 01-28-13.html. Это хоть и не отразится на индексации, но в результатах поиска при остальных равных условиях, предпочтение будет отдано странице с названием auto.html. То есть это очень важно с точки зрения оптимизации страницы под поисковые запросы.
Помимо содержания и структуры сайта, на его индексацию влияет также хостинг и доменная зона. Так, если сайт будет расположен на хостинге, сервера которого бывают часто недоступны, то поисковый робот может не найти сайта и не проиндексировать его. Поэтому следует выбирать хостинг понадежнее. Идеальным вариантом является аренда выделенного сервера, хотя это и дорогое удовольствие. Если планируется размещать сайт на бесплатном хостинге, то следует учитывать, что для каждого бесплатного хостинга у поисковых систем свой уровень доверия, поэтому на одних хостингах сайты индексируются быстрее, а на других не индексируются совсем. Так, например, из 3-х сайтов, созданных на английском языке и размещённых на хостинге http://atspace.com/, поисковой системой Google не был проиндексирован ни один, хотя требования к содержанию и структуре сайтов соблюдались. После того, как эти сайты были перенесены на платный хостинг, они были проиндексированы системой Google в течение недели.
В выборе хостинга есть один любопытный момент — поисковые системы очень хорошо относятся к бесплатным хостингам, которые они же сами и предоставляют. Так, например, сайты, расположенные на хостинге http://narod.yandex.ru/, который принадлежит компании Яндекс, достаточно хорошо индексируются поисковой системой Яндекс (если они конечно сделаны с соблюдением вышеперечисленных рекомендаций). А блоги, созданные при помощи сервиса http://www.blogger.com/, который предоставляется компанией Google, отлично индексируются поисковой системой Google.
Литература:
- И. Ашманов, А. Иванов. Оптимизация и продвижение сайтов в поисковых системах Питер, 2009 г., 400 стр.
- Д. Н. Колисниченко Поисковые системы и продвижение сайтов в Интернете. Вильямс, 2007 г., 272 стр.
- Авинаш Кошик. Веб-аналитика. Анализ информации о посетителях веб-сайтов. Диалектика 2009 г., 464 стр.
Что такое индексация сайта (Как улучшить индексацию в Google)
Индексация сайта — это процесс сбора информации поисковой системой о содержимом вашего сайта. Во время индексации поисковые роботы (пауки) сканирую и обрабатывают web страницы, изображения, видео и другие доступные для сканирования файлы. Чтобы поисковая система быстро проиндексировала сайт: создайте карту сайта и добавьте ее в Google Search Console.
Сайт должен быть проиндексирован чтобы отображаться в поиске
Страницы, которые прошли сканирование и обработку, сохраняются в базу данных. Такая база называется «поисковой индекс». Именно в этой базе данных поисковая система ищет результаты, отвечающие на запросы пользователей.
Важно понимать:
- Если страницы нет в поисковом индексе — ее невозможно найти в поисковой системе.
- Индексация нужна чтобы участвовать в поиске.
- У каждой поисковой системы свой поисковой индекс, свои поисковые боты.
- Поисковой бот от Google называется Googlebot.
- Настройка индексации сайта, это базовый уровень работ по SEO.
Содержание статьи
Как проверить индексацию страницы?
Самый быстрый способ — написать в строку поиска команду site:[адрес страницы]. Такой поиск найдет все проиндексированные страницы сайта. Для того, чтобы просмотреть дату последнего сканирования страницы, напишите в строку поиска cache:[адрес проверяемой страницы]. Если вам нужно проверить индексацию конкретной страницы просто скопируйте ее адрес и введи в поиск запрос site:[адрес страницы]. Этот метод будет работать как в Google так и в Yandex или Bing.
Совет: Сравните количество проиндексированных страниц с реальным количеством страниц на сайте. Это поможет быстро оценить есть ли у вашего сайта проблемы с индексацией. К примеру: если на сайте 100 товаров, 10 разделов и 10 информационных страниц (в сумме 120), а в индексе только 50 страниц, это означает, что поисковая система не знает о большей части вашего сайта.
Как проверить индексацию всего сайта
Для проверки индексации сайта нужно выполнить 2 простых шага:
- Узнать сколько страниц на сайте. Для этого просканируйте свой сайт специальными инструментами. Если ваш сайт до 500 страниц вам подойдет бесплатная версия Screaming Frog , если этого недостаточно используйте, бесплатный Site Analyzer. В разделе «HTML» вы увидите общее количество страниц вашего сайта.
- Зайдите в инструменты для вебмастеров или Google Search Console (Что такое Google Search Consol ) откройте отчет «Покрытие» и просмотрите количество страниц в статусе «Без ошибок». Количество страниц в сканере Site Analyzer и страниц в Google Search Console должно приблизительно совпадать. Это, будет означать, что основные страницы сайта сканируются. Если часть страниц попала в группу «Исключено» вы можете изучить причины исключения страниц. В этом же отчете вы можете познакомиться с историей индексации вашего сайта за последние 3, 6 или 12 месяцев.
- Довольно часто в отчете «Покрытие» вы можете увидеть большое количество страниц в статусе «Страница просканирована, но пока не проиндексирована» — это означает, что поисковая система уже получила данные о ваших страницах но пока не обработала их до конца. Так же, страницы могут находиться в этом статусе по причине низкого качества: пустые страницы или страницы с повторяющимся содержанием. Если количество «пока не проиндексированных» страниц не сокращается попробуйте уникализировать, добавить содержание или увеличить количество качественных внешних ссылок на свой сайт.
- Если вам нужно массово проверить индексацию страниц вашего сайта, воспользуйтесь онлайн инструментом https://indexchecking.com
- Хорошая идея проверить свой сайт с помощью инструментов https://en.ryte.com — это поможет вам понять какие страницы закрыты от индексации. А так же, обнаружить страницы на которых есть технические проблемы.
Проверяем не закрыта ли отдельная страница от индексации
Если перед вами появилась задача, проверить запрет индексации конкретной страницы проще всего использовать инструменты для вебмастеров. Скопируйте адрес страницы которую вы хотите проверить и вставьте в инструмент «Проверка URL на ресурсе».
В результате проверки вы получите информацию о запретах индексации. Обратите внимание на информацию о запретах, статусе страницы и канонический адрес.
Как добавить новый сайт в индекс поисковиков?
Сообщите поисковой системе о своем сайте в специальном инструменте Google или Yandex. Поделитесь своим сайтом в социальной сети или создайте на него ссылку с другого, уже проиндексированного сайта.
Узнайте больше о работе поисковой системы
Что делать, если сайт плохо индексируется?
Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:
- Создайте карту сайта и загрузите в инструменты для вебмастеров.
- Обновите старые страницы.
- Удалите пустые страницы.
- Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.
Как происходит индексация сайта
Для решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:
- Сканирование страниц.
- Обработка страниц.
Этап 1: Сканирование
Сканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:
- Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.
- Перечень ссылок, которые находятся на странице.
Полученное содержание передается для дальнейшей обработки и сохранения в базу. Просканированные ссылки так же сохраняются в специальный список — “очередь сканирования”, для дальнейшей обработки.
Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.
Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта — самый простой способ отправить на индексацию все страницы в рамках нашего домена.
Есть несколько способов создать карту сайта:
- Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.
- Программа для сканирования сайта, с возможностью создания sitemap — xenu links.
- Библиотека приложений для создания sitemap.
- Самый популярный плагин для создания карты сайта для WordPress.
Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txt
Добавление карты сайта в Search Console:
- Зайдите в https://search.google.com/search-console/
- Добавьте свой сайт или выберите из списка.
- Перейдите в раздел Сканирование — Файлы Sitemap.
- Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.
Добавление sitemap в robots.txt:
- Зайдите в корневой каталог сайта через ftp.
- Откройте файл robots.txt
- Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.
Третий способ ускорить индексацию — сообщить поисковому боту о дате последнего изменения страницы. Для получения даты и времени изменения страницы боты используют данные из заголовка ответа сервера lastmod. Сообщить наличие изменений на странице можно с помощью кода ответа not modify.
Инструмент проверки заголовка lastmod и ответа сервера not modify.
Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются.
Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.
Этап 2: Обработка данных
Перед тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.
В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.
Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.
Сейчас Google использует алгоритм индексации, который называется Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:
- Обработка современных страниц, использующих сложные js и css элементы.
- Максимально быстрое сканирование всех страниц в Интернете.
Анализ текста при индексации
После разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.
Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.
Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02
Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.
Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.
Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.
От чего зависит индексация сайта?
- Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap
- Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.
- Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.
- Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.
Подведем итоги
- Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.
- Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.
Мы можем проверить и настроить индексацию вашего сайта за вас.
SEO аудит с рекомендациями за 10 дней.
Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.
Руководитель отдела продвижения SEO7. Ведущий Youtube канала Школа SEO. Автор блога о поисковой оптимизации seo-sign.com
Что такое индексация сайта в поисковых системах?
Интернет – огромная вселенная, состоящая из миллионов сайтов с различной информацией. Для того, чтобы пользователь смог попасть на нужную страницу, существуют поисковые системы. С их помощью человек находит нужные товары и услуги.
Индексация – это процесс изучения, анализа и хранения информации о веб-ресурсе. С помощью поисковых роботов поисковики изучают каждый веб-ресурс, собирают нужные данные и отправляют их в специальные хранилища, где проводят тщательный анализ.
Аналитика опирается на большое количество алгоритмов и показателей (уникальность, адаптивность, оптимизация и т.д.). Иными словами, индексация сайта в Гугле и Яндексе – это процесс его регистрации в поисковых системах для дальнейшего отображения своей целевой аудитории.
Как проверить индексирование сайта?
Для того, чтобы сайт попал в поисковую выдачу, необходимо подсказать поисковикам о своем появлении. Для этого используют:
- Инструменты для вебмастеров – они позволяют зарегистрировать веб-ресурс и «пригласить» робота на страницы
- Ссылки на сторонних сайтах, которые уже индексируются – именно через них поисковый «паук» попадает на продвигаемый портал.
В среднем вся процедура занимает 14 дней для Яндекса и пару дней для Google. Это связано с тем, что первый поисковик изучает все страницы сайта и сразу избавляется от нерелевантного контента; второй же – изучает и индексирует весь веб-ресурс, однако отображает своим посетителям только качественные страницы.
Проверить индексирование сайта можно с помощью:
- Вебмастеров – переходя в соответствующие разделы
- Онлайн-сервисов – показывающих текущую ситуацию
- Спецкоманд – прописываемых в поисковых системах host:(адрес) или site:(адрес).
Как закрыть сайт от индексирования?
По разным причинам требуется запретить поисковым роботам заходить и изучать сайт, например, при редизайне или обновлении контента страниц. Для этого используют:
- Файл Robots – в данном текстовом документе прописываются команды User-agent и Disallow. Первая указывает адрес страницы, вторая запрещает индексацию
- Мета-теги – noindex и nofollow, позволяющих полностью закрыть сайт от поисковиков.
В большинстве CMS и конструкторов сайтов данная операция упрощена и сводится к установке/снятию флажка в специальном окошке. Нужно не только закрывать веб-ресурс от роботов при глобальных переделках, но и не забывать восстанавливать индексирование по окончанию работ.
Как ускорить индексацию сайта в Яндексе и Гугле?
- Использовать вебмастера Yandex и Google
- На постоянной основе публиковать новый контент
- Обеспечивать практичную и удобную навигацию с глубиной перехода не более 3-х
- Иметь быструю скорость загрузки
- Находиться на надежном и скоростном хостинге
- Проверять файл Robots и карту сайта
- Грамотно настраивать внутренние ссылки
- Использовать социальные сети и другие источники трафика для привлечения посетителей.
Создание и продвижение сайта – сложный процесс, для эффективного выполнения которого необходима команда профессионалов в лице SEO-специалиста, дизайнера, верстальщика, программиста, директолога, сммщика. «ArtStudioDesign» – веб-студия, которая учит сайты работать, индексироваться и зарабатывать. Звоните!
Почему никогда и никогда не проверяйте «Не поощряйте поисковые системы» • WPShout
За время моей работы консультантом по WordPress только однажды я действительно повредил сайт, над которым работал. Я оставил отметку «Не рекомендовать поисковым системам индексировать этот сайт» на действующем сайте, подавляя рейтинг страницы в течение нескольких недель, пока не заметил ошибку.
Один флажок, чтобы стереть сотни результатов поиска: это поразительная асимметрия, тем более, что нет быстрого способа исправить ущерб.
Оглядываясь назад на опыт, я больше всего поражен удобством : один флажок, чтобы стереть сотни результатов поиска. Это поразительная асимметрия — тем более, что нет быстрого способа исправить ущерб, даже если вы заметили свою ошибку. Повторное индексирование сайта не даст результатов в течение нескольких часов, а восстановление утраченного рейтинга страницы занимает недели и месяцы, как восстановление старовозрастного леса.
Итак, в этом посте будет рассказано о том, что делает «Запретить поисковым системам индексировать этот сайт», почему никогда не использовать его и как быстро узнать, использовал ли его на вашем сайте или на сайте вашего клиента .Есть надежда, что больше людей смогут навсегда избежать ловушки «Отказать поисковым системам» и что больше сайтов с подавленным SEO можно будет обнаружить и реабилитировать.
Что делает «Отказать поисковым системам от индексации этого сайта»
«Отказать поисковым системам от индексирования этого сайта» — это опция флажка в разделе «Настройки»> «Чтение» в панели администратора WordPress.Чтобы действительно понять, что означает эта фраза, требуется немного технических знаний, поэтому вот пара менее технических способов описать, что делает коробка:
- «Уничтожьте SEO этого сайта до дальнейшего уведомления.
- «Сделать так, чтобы этот сайт вообще не отображался в поиске Google».
Подробнее: Установка этого флажка указывает поисковым системам полностью избегать проверки содержимого сайта, а это означает, что сайт не будет отображаться в результатах поиска.
Причина, по которой эта функция существует, заключается в том, чтобы предотвратить поиск поисковыми системами сайта, который не должен отображаться в поиске. Возможно, наиболее распространенный пример — это сайт, который находится в стадии разработки, но еще не готов к показу широкой публике, поэтому я поставил галочку в анекдоте выше.
Почему вы никогда не должны его использовать
Когда вы запустите свой сайт, ваши настройки останутся нетронутыми, и, если вы специально не уберете этот флажок, сайт будет терять рейтинг страницы.
Очень легко забыть, что вы установили флажок «Не рекомендовать поисковым системам индексировать этот сайт». Когда вы запустите свой сайт вживую, все ваши настройки останутся нетронутыми, и если вы специально не запомните , чтобы снять флажок, сайт останется невидимым для Google и сразу же начнет снижать рейтинг страницы.
Если ваш сайт запускается так же, как мой, он содержит сотни самых последних деталей, на которые нужно обратить внимание, многие из которых (перенос хостинга, миграция базы данных, распространение DNS, 301 редирект) являются сложными и часто нервными. Вероятно, также существует значительный дефицит времени.
При всей этой суматохе предупреждение WordPress о том, что вы собираетесь снизить рейтинг страницы своего действующего сайта, ужасающе тихо. Посмотрите вправо и посмотрите, сможете ли вы его заметить. (Помните, что изображение справа взято с панели управления, в шесть раз превышающей размер текста и изображений.)Суть в том, что вам не следует использовать «Отказать поисковым системам», потому что очень легко оставить его включенным слишком долго, и последствия этого действительно плохи.
Что делать вместо этого
Если просто позволить вашим тестовым сайтам накапливать рейтинг страниц, то для большинства проектов нормально.
Я написал еще одну статью, в которой подробно рассматриваются гораздо более эффективные альтернативы фразе «Отказать поисковым системам». А пока: просто не ставьте флажок в этом поле и позволяя тестовым сайтам накапливать рейтинг страницы, должно быть хорошо для большинства проектов.
Они не должны видеть почти никакого трафика в течение достаточно короткого процесса разработки (скажем, месяц или меньше), и если вы сразу удалите их — или, еще лучше, 301 перенаправите их на действующий сайт — в конце вы будете дом бесплатно. Если вы забудете, вы можете в конечном итоге заметить, что рейтинг страницы совместного использования тестового сайта с действующим сайтом, который быстро исправит 301 редирект.
Если вас это не устраивает, см. Более подробные советы в нашей статье по этой теме.
Как быстро определить, использует ли ваш сайт «Отказ от поисковых систем»
Если вы управляете только одним сайтом WordPress, проверьте область «Краткий обзор» на панели инструментов, чтобы убедиться, что текст «Поисковые системы не одобряет» не появляются.Если нет, то все готово. Однако, если вы управляете портфелем сайтов, особенно клиентских, вам нужно будет быстро проверить каждый сайт, и вам не придется беспокоиться о входе на каждый из них (или запускать Инструменты для веб-мастеров или что-то еще. ). Вот как.
«Отказать поисковым системам» изменяет файл robots.txt
в корне установки WordPress. На скриншотах ниже показаны два файла robots.txt
: один с разрешенными поисковыми системами (слева) и один с запрещенными поисковыми системами (справа).Сайт слева не позволяет Google сканировать / wp-admin /
или / wp-includes /
, что является стандартной практикой, поскольку эти каталоги не находятся там, где находится ваш интерфейсный сайт. Сайт справа не позволяет Google сканировать и что-либо .
Перейдите на
sitename.com/robots.txt
для каждого сайта, который вас беспокоит.
Итак, вам просто нужно перейти на sitename.com/robots.txt
для каждого сайта, который вас беспокоит, и посмотреть, как выглядит файл.Это намного быстрее, чем любой другой известный мне метод.
Сейчас 3 часа ночи. Вы знаете, существует ли ваш сайт в поиске?
Теперь, когда вы знаете, что делает «Отказать поисковым системам», бегло просмотрите свои сайты и убедитесь, что они в порядке.И ребята, , пожалуйста, не используйте фразу «Не позволяйте поисковым системам индексировать этот сайт» на своих сайтах или сайтах, которые вы создаете для других. Люди совершают ошибки, и установка этого флажка открывает перед вами одну из самых простых и дорогостоящих ошибок, которые вы можете совершить с сайтом WordPress.
Спасибо за чтение, и, пожалуйста, поделитесь, чтобы рассказать всем!
Изменения, запрещающие поисковые системы индексировать сайты. — Сделайте WordPress Core
В WordPress 5.3 метод, используемый для предотвращения индексации, будет изменен на сайтах, включив опцию «препятствовать индексированию этого сайта поисковыми системами» на панели управления WordPress. Эти изменения были внесены как часть тикета Created как для отчетов об ошибках, так и для разработки функций в системе отслеживания ошибок. # 43590.
Эти изменения предназначены для того, чтобы лучше препятствовать поисковым системам отображать сайт, а не только для предотвращения сканирования сайта.
robots.txt
изменения файла.
В предыдущих версиях WordPress код Disallow: /
был добавлен в файл robots.txt
, чтобы предотвратить сканирование сайта поисковыми системами. Это было удалено для непубличных веб-сайтов в WordPress 5.3.
Как пишет Йуст де Валк в объяснении исключения из поисковых систем, запрет сканирования может привести к разрешению индексации сайта:
Чтобы сайт был в списке, его не нужно [сканировать].Если ссылка указывает на страницу, домен или другое место, Google перейдет по этой ссылке. Если файл robots.txt в этом домене предотвращает [сканирование] этой страницы поисковой системой, он все равно будет показывать URL. Определенный веб-адрес веб-сайта или веб-страницы в Интернете, например URL-адрес веб-сайта www.wordpress. org в результатах, если он сможет собрать… на это стоит посмотреть.
Мета Мета — это термин, относящийся к внутренней работе группы. Для нас это команда, которая работает над внутренними сайтами WordPress, такими как WordCamp Central и Make WordPress.tag Каталог в Subversion. WordPress использует теги для хранения одного снимка версии (3.6, 3.6.1 и т. Д.), Что является обычным условием использования тегов в системах контроля версий. (Не путать с тегами постов.) Изменения.
Сайты с включенной опцией «препятствовать индексированию этого сайта поисковыми системами» будут отображать обновленный метатег robots, чтобы сайт не отображался в поисковых системах:
.
Этот метатег запрашивает у поисковых систем исключение страницы из индексации и препятствует дальнейшему сканированию сайта.
Исключение серверов разработки из поисковых систем.
Самый эффективный метод исключения сайтов разработки из индексации поисковыми системами — это включить HTTP. HTTP — это аббревиатура от Hyper Text Transfer Protocol. HTTP — это базовый протокол, используемый во всемирной паутине, и этот протокол определяет, как сообщения форматируются и передаются, и какие действия веб-серверы и браузеры должны выполнять в ответ на различные команды. Заголовок Заголовок вашего сайта — это обычно первое, с чем сталкиваются люди.Заголовок или заголовок, расположенный в верхней части страницы, является частью внешнего вида вашего веб-сайта. Это может повлиять на мнение посетителей о вашем контенте и о бренде вашей организации. Он также может выглядеть по-разному на экранах разных размеров. X-Robots-Tag: noindex, nofollow
при обслуживании всех ресурсов вашего сайта: изображений, PDF-файлов, видео и других ресурсов.
Как большинство языков разметки гипертекста, отличных от HTML. Язык семантических сценариев, который в основном используется для вывода контента в веб-браузерах.ресурсы обслуживаются непосредственно веб-сервером на сайте WordPress, ядро Core — это набор программного обеспечения, необходимого для работы WordPress. Основная команда разработчиков создает WordPress. программное обеспечение не может установить этот заголовок HTTP. Вам следует проконсультироваться с документацией вашего веб-сервера или хоста, чтобы убедиться, что эти ресурсы исключены из сайтов разработки.
# 5-3, # dev-notes
Архитектура механизма полнотекстовых запросов и индексирования (Lucene) — Когнитивный поиск Azure
- 16 минут для чтения
В этой статье
Эта статья предназначена для разработчиков, которым необходимо более глубокое понимание того, как работает полнотекстовый поиск Lucene в Когнитивном поиске Azure.Для текстовых запросов Когнитивный поиск Azure без проблем доставляет ожидаемые результаты в большинстве сценариев, но иногда вы можете получить результат, который каким-то образом кажется «неправильным». В этих ситуациях наличие опыта работы на четырех этапах выполнения запроса Lucene (синтаксический анализ запроса, лексический анализ, сопоставление документов, оценка) может помочь вам определить конкретные изменения параметров запроса или конфигурации индекса, которые обеспечат желаемый результат.
Примечание
Когнитивный поиск Azure использует Lucene для полнотекстового поиска, но интеграция с Lucene не является исчерпывающей.Мы выборочно предоставляем и расширяем функциональность Lucene, чтобы включить сценарии, важные для когнитивного поиска Azure.
Обзор архитектуры и схема
Обработка запроса полнотекстового поиска начинается с анализа текста запроса для извлечения условий поиска. Поисковая система использует индекс для поиска документов с соответствующими терминами. Иногда отдельные термины запроса разбиваются и воссоздаются в новых формах, чтобы охватить более широкую сеть того, что можно рассматривать как потенциальное соответствие.Затем набор результатов сортируется по баллу релевантности, присвоенному каждому отдельному совпадающему документу. Те, кто находится наверху ранжированного списка, возвращаются вызывающему приложению.
Пересмотрено, выполнение запроса состоит из четырех этапов:
- Разбор запроса
- Лексический анализ
- Получение документов
- Подсчет очков
На схеме ниже показаны компоненты, используемые для обработки поискового запроса.
Ключевые компоненты | Функциональное описание |
---|---|
Анализаторы запросов | Отделите термины запроса от операторов запроса и создайте структуру запроса (дерево запроса), которая будет отправлена в поисковую систему. |
Анализаторы | Выполнять лексический анализ терминов запроса. Этот процесс может включать в себя преобразование, удаление или расширение терминов запроса. |
Индекс | Эффективная структура данных, используемая для хранения и организации доступных для поиска терминов, извлеченных из проиндексированных документов. |
Поисковая система | Извлекает и оценивает совпадающие документы на основе содержимого инвертированного индекса. |
Анатомия поискового запроса
Поисковый запрос — это полная спецификация того, что должно возвращаться в наборе результатов. В простейшей форме это пустой запрос без каких-либо критериев. Более реалистичный пример включает параметры, несколько терминов запроса, возможно, с определенными полями, с, возможно, выражением фильтра и правилами упорядочивания.
В следующем примере показан поисковый запрос, который можно отправить в Когнитивный поиск Azure с помощью REST API.
POST / indexes / hotels / docs / search? Api-version = 2020-06-30
{
"search": "Просторный, с кондиционером * + \" Вид на океан \ "",
"searchFields": "описание, заголовок",
"searchMode": "любой",
"фильтр": "цена 60 фунтов стерлингов и цена 300 литов",
"orderby": "geo.distance (location, geography'POINT (-159.476235 22.227659) ')",
"queryType": "полный"
}
По этому запросу поисковик делает следующее:
- Отфильтровывает документы с ценой от 60 до 300 долларов.
- Выполняет запрос. В этом примере поисковый запрос состоит из фраз и условий:
"Просторный, кондиционер * + \" Вид на океан \ ""
(пользователи обычно не вводят знаки препинания, но включение их в пример позволяет нам объяснить, как анализаторы справляются с этим). Для этого запроса поисковая машина сканирует поля описания и заголовка, указанные вsearchFields
, на предмет документов, которые содержат «вид на океан», а также дополнительно на термин «просторный» или на термины, начинающиеся с префикса «кондиционер».ПараметрsearchMode
используется для сопоставления любого термина (по умолчанию) или всех из них, в случаях, когда термин не требуется явно (+
). - Упорядочивает полученный набор отелей по близости к заданному географическому положению, а затем возвращается в вызывающее приложение.
Большая часть статьи посвящена обработке поискового запроса : "Просторный, кондиционер * + \" Вид на океан \ ""
. Фильтрация и упорядочивание выходят за рамки.Дополнительную информацию см. В справочной документации по Search API.
Этап 1: синтаксический анализ запроса
Как уже отмечалось, строка запроса — это первая строка запроса:
"search": "Просторный, с кондиционером * + \" Вид на океан \ "",
Анализатор запросов отделяет операторы (например, *
и +
в примере) от условий поиска и разбивает поисковый запрос на подзапросов поддерживаемого типа:
- запрос термина для отдельных терминов (например, просторный)
- фразовый запрос для цитируемых терминов (например, вид на океан)
- запрос префикса для терминов, за которыми следует оператор префикса
*
(например, кондиционер)
Полный список поддерживаемых типов запросов см. В синтаксисе запросов Lucene
. Операторы, связанные с подзапросом, определяют, «должен» или «должен быть» удовлетворен запрос, чтобы документ считался совпадающим.Например, + "Вид на океан"
является «обязательным» из-за оператора +
.
Анализатор запросов реструктурирует подзапросы в дерево запросов (внутренняя структура, представляющая запрос), которое он передает поисковой системе. На первом этапе разбора запроса дерево запроса выглядит так.
Поддерживаемые парсеры: простой и полный Lucene
Когнитивный поиск Azure предоставляет два разных языка запросов: простой
(по умолчанию) и полный
.Установив параметр queryType
с вашим поисковым запросом, вы сообщаете синтаксическому анализатору запросов, какой язык запроса вы выбираете, чтобы он знал, как интерпретировать операторы и синтаксис. Язык простых запросов интуитивно понятен и надежен, часто подходит для интерпретации пользовательского ввода как есть без обработки на стороне клиента. Он поддерживает операторы запросов, знакомые по поисковым системам в Интернете. Язык запросов Full Lucene, который вы получаете, задав queryType = full
, расширяет простой язык запросов по умолчанию, добавляя поддержку дополнительных операторов и типов запросов, таких как подстановочные знаки, нечеткие, регулярные выражения и запросы с областью действия.Например, регулярное выражение, отправленное с использованием простого синтаксиса запроса, будет интерпретироваться как строка запроса, а не выражение. В примере запроса в этой статье используется язык запросов Full Lucene.
Влияние searchMode на синтаксический анализатор
Другой параметр поискового запроса, влияющий на синтаксический анализ, — это параметр searchMode
. Он управляет оператором по умолчанию для логических запросов: любой (по умолчанию) или все.
Когда searchMode = any
, что является значением по умолчанию, разделителем пробелов между просторным и кондиционером является ИЛИ ( ||
), что делает пример текста запроса эквивалентным:
Просторный, || кондиционер * + "Вид на океан"
Явные операторы, такие как +
в + "Ocean view"
, однозначны при построении логического запроса (термин должен соответствовать ).Менее очевидно, как истолковывать остальные термины: просторный и кондиционированный. Должна ли поисковая система находить совпадения по видам океана и Просторный и кондиционер? Или он должен найти вид на океан плюс или один из оставшихся терминов?
По умолчанию ( searchMode = any
) поисковая система принимает более широкую интерпретацию. Либо поле должно соответствовать , отражая семантику «или». Первоначальное дерево запроса, показанное ранее, с двумя операциями «следует», показывает значение по умолчанию.
Предположим, что теперь мы установили searchMode = all
. В этом случае пробел интерпретируется как операция «и». Каждый из оставшихся терминов должен присутствовать в документе, чтобы считаться совпадением. Результирующий пример запроса можно интерпретировать следующим образом:
+ Просторный, + кондиционер * + "Вид на океан"
Модифицированное дерево запроса для этого запроса будет следующим, где соответствующий документ является пересечением всех трех подзапросов:
Примечание
Выбор searchMode = любое
вместо searchMode = все
— это решение, которое лучше всего приходит путем выполнения репрезентативных запросов.Пользователи, которые, вероятно, будут использовать операторы (часто используемые при поиске в хранилищах документов), могут найти результаты более интуитивно понятными, если searchMode = all
сообщает логические конструкции запроса. Дополнительные сведения о взаимодействии между searchMode
и операторами см. В разделе Простой синтаксис запроса.
Этап 2: Лексический анализ
Лексические анализаторы обрабатывают запросов терминов и запросов фраз после того, как дерево запросов структурировано. Анализатор принимает вводимые им текстовые данные от парсера, обрабатывает текст и затем отправляет обратно токенизированные термины для включения в дерево запроса.
Наиболее распространенной формой лексического анализа является лингвистический анализ , который преобразует термины запроса на основе правил, специфичных для данного языка:
- Сокращение термина запроса до корневой формы слова
- Удаление несущественных слов (игнорируемых слов, таких как «или» и «и» в английском языке)
- Разбиение составного слова на составные части
- Нижний регистр слово в верхнем регистре
Все эти операции имеют тенденцию стирать различия между вводимым пользователем текстом и терминами, хранящимися в указателе.Такие операции выходят за рамки обработки текста и требуют глубокого знания самого языка. Чтобы добавить этот уровень языковой осведомленности, Когнитивный поиск Azure поддерживает длинный список языковых анализаторов от Lucene и Microsoft.
Примечание
Требования к анализу могут варьироваться от минимальных до сложных в зависимости от вашего сценария. Вы можете контролировать сложность лексического анализа, выбрав один из предопределенных анализаторов или создав свой собственный анализатор. Анализаторы ограничены доступными для поиска полями и указываются как часть определения поля.Это позволяет вам варьировать лексический анализ для каждого поля. Не указано, используется стандартный анализатор Lucene.
В нашем примере до анализа в исходном дереве запроса есть термин «Просторный» с заглавной буквой «S» и запятой, которую синтаксический анализатор запроса интерпретирует как часть термина запроса (запятая не считается языком запросов. оператор).
Когда анализатор по умолчанию обрабатывает термин, он вводит строчные буквы «вид на океан» и «просторный» и удаляет запятую.Измененное дерево запроса будет выглядеть следующим образом:
Тестирование поведения анализатора
Поведение анализатора можно проверить с помощью Analyze API. Введите текст, который вы хотите проанализировать, чтобы увидеть, какие термины будет генерировать данный анализатор. Например, чтобы увидеть, как стандартный анализатор обработает текст «кондиционер», вы можете отправить следующий запрос:
{
"текст": "кондиционер",
"анализатор": "стандартный"
}
Стандартный анализатор разбивает входной текст на следующие два токена, аннотируя их атрибутами, такими как начальное и конечное смещения (используется для выделения совпадений), а также их положение (используется для сопоставления фраз):
{
"токены": [
{
"токен": "воздух",
"startOffset": 0,
"endOffset": 3,
"позиция": 0
},
{
"токен": "состояние",
"startOffset": 4,
"endOffset": 13,
«позиция»: 1
}
]
}
Исключения из лексического анализа
Лексический анализ применяется только к типам запросов, для которых требуются полные термины — терминологический запрос или фразовый запрос.Он не применяется к типам запросов с неполными терминами (запрос с префиксом, запрос с подстановочными знаками, запрос с регулярным выражением) или к нечеткому запросу. Эти типы запросов, включая префиксный запрос с термином air-condition *
в нашем примере, добавляются непосредственно в дерево запроса, минуя этап анализа. Единственное преобразование, выполняемое для условий запроса этих типов, — это нижний регистр.
Этап 3: Получение документа
Под поиском документов понимается поиск документов с совпадающими терминами в индексе.Этот этап лучше всего можно понять на примере. Начнем с индекса гостиниц, имеющего следующую простую схему:
{
"название": "отели",
"поля": [
{"name": "id", "type": "Edm.String", "key": true, "для поиска": false},
{"name": "title", "type": "Edm.String", "searchable": true},
{"имя": "описание", "тип": "Edm.String", "возможность поиска": истина}
]
}
Далее предположим, что этот индекс содержит следующие четыре документа:
{
"значение": [
{
"id": "1",
"title": "Отель Атман",
"description": "Просторные номера, вид на океан, в пешей доступности до пляжа."
},
{
"id": "2",
"title": "Пляжный курорт",
"description": "Расположен на северном берегу острова Кауаи. Вид на океан."
},
{
"id": "3",
"title": "Отель Плайя",
"description": "Комфортабельные номера с кондиционером и видом на океан".
},
{
«id»: «4»,
"title": "Уединение в океане",
"description": "Тихо и уединенно"
}
]
}
Как индексируются термины
Чтобы понять поиск, полезно знать некоторые основы индексирования.Единица хранения — это инвертированный индекс, по одному на каждое доступное для поиска поле. Внутри перевернутого индекса находится отсортированный список всех терминов из всех документов. Каждый термин отображается в списке документов, в которых он встречается, как показано в примере ниже.
Для создания терминов в инвертированном индексе поисковая система выполняет лексический анализ содержимого документов, аналогично тому, что происходит при обработке запроса:
- Ввод текста передается в анализатор в нижнем регистре, без знаков препинания и т.д., в зависимости от конфигурации анализатора.
- Токены являются результатом лексического анализа.
- Термины добавлены в указатель.
Обычно, но не обязательно, использовать одни и те же анализаторы для операций поиска и индексирования, чтобы термины запроса больше походили на термины внутри индекса.
Примечание
Когнитивный поиск Azure позволяет указать различные анализаторы для индексирования и поиска с помощью дополнительных параметров поля indexAnalyzer
и searchAnalyzer
.Если не указано, анализатор, установленный со свойством analyzer
, используется как для индексации, так и для поиска.
Инвертированный индекс для документов
Возвращаясь к нашему примеру, для поля title инвертированный индекс выглядит так:
Срок | Список документов |
---|---|
атман | 1 |
пляж | 2 |
гостиница | 1, 3 |
океан | 4 |
плайя | 3 |
курорт | 3 |
отступление | 4 |
В поле заголовка только гостиница отображается в двух документах: 1, 3.
Для поля описания индекс выглядит следующим образом:
Срок | Список документов |
---|---|
воздух | 3 |
и | 4 |
пляж | 1 |
с кондиционером | 3 |
удобный | 3 |
расстояние | 1 |
остров | 2 |
Кауаи | 2 |
местонахождение | 2 |
север | 2 |
океан | 1, 2, 3 |
из | 2 |
по | 2 |
тихий | 4 |
номер | 1, 3 |
уединенный | 4 |
берег | 2 |
просторный | 1 |
1, 2 | |
до | 1 |
вид | 1, 2, 3 |
ходьба | 1 |
с | 3 |
Сопоставление терминов запроса с проиндексированными терминами
Учитывая приведенные выше перевернутые индексы, давайте вернемся к образцу запроса и посмотрим, как найдены совпадающие документы для нашего примера запроса.Напомним, что окончательное дерево запроса выглядит так:
Во время выполнения запроса отдельные запросы выполняются независимо от доступных для поиска полей.
TermQuery, «просторный», соответствует документу 1 (Hotel Atman).
PrefixQuery, «air-condition *», не соответствует ни одному документу.
Это поведение иногда сбивает разработчиков с толку. Хотя термин «кондиционирование воздуха» существует в документе, анализатор по умолчанию разбивает его на два термина.Напомним, что префиксные запросы, содержащие частичные термины, не анализируются. Поэтому термины с префиксом «кондиционер» ищутся в инвертированном индексе и не обнаруживаются.
PhraseQuery, «вид на океан», ищет термины «океан» и «вид» и проверяет близость терминов в исходном документе. Документы 1, 2 и 3 соответствуют этому запросу в поле описания. В документе уведомления 4 есть термин «океан» в названии, но он не считается подходящим, поскольку мы ищем фразу «вид на океан», а не отдельные слова.
Примечание
Поисковый запрос выполняется независимо для всех доступных для поиска полей в индексе когнитивного поиска Azure, если вы не ограничиваете поля, установленные с помощью параметра searchFields
, как показано в примере поискового запроса. Возвращаются документы, соответствующие любому из выбранных полей.
В целом по рассматриваемому запросу совпадают документы 1, 2, 3.
Этап 4: Подсчет очков
Каждому документу в наборе результатов поиска присваивается оценка релевантности.Функция оценки релевантности заключается в повышении ранжирования тех документов, которые лучше всего отвечают на вопрос пользователя, выраженный поисковым запросом. Оценка рассчитывается на основе статистических свойств совпавших терминов. В основе формулы оценки лежит TF / IDF (термин «частота-обратная частота документа»). В запросах, содержащих редкие и общие термины, TF / IDF продвигает результаты, содержащие редкие термины. Например, в гипотетическом индексе со всеми статьями Википедии из документов, соответствующих запросу президент , документы, соответствующие запросу президент , считаются более релевантными, чем документы, соответствующие запросу и .
Пример подсчета очков
Вспомните три документа, которые соответствуют нашему примеру запроса:
search = Просторный, кондиционер * + "Вид на океан"
{
"значение": [
{
"@ search.score": 0,25610128,
"id": "1",
"title": "Отель Атман",
"description": "Просторные номера, вид на океан, в пешей доступности до пляжа".
},
{
«@ search.score»: 0,08951007,
"id": "3",
"title": "Отель Плайя",
"description": "Комфортабельные номера с кондиционером и видом на океан."
},
{
«@ search.score»: 0,05967338,
"id": "2",
"title": "Ocean Resort",
"description": "Расположен на скале на северном берегу острова Кауаи. Вид на океан."
}
]
}
Документ 1 лучше всего соответствует запросу, поскольку в поле описания встречаются и термин , просторный , и требуемая фраза , вид на океан . Следующие два документа соответствуют только фразе Ocean View . Может показаться удивительным, что оценка релевантности для документов 2 и 3 различается, даже если они совпадают с запросом одинаково.Это потому, что формула подсчета очков включает больше компонентов, чем просто TF / IDF. В этом случае документ 3 получил несколько более высокую оценку, поскольку его описание короче. Узнайте о практической формуле оценки Lucene, чтобы понять, как длина поля и другие факторы могут влиять на оценку релевантности.
Некоторые типы запросов (подстановочные знаки, префиксы, регулярные выражения) всегда вносят постоянную оценку в общую оценку документа. Это позволяет включать совпадения, найденные в результате расширения запроса, в результаты, но без влияния на ранжирование.
Пример показывает, почему это важно. Поиск с использованием подстановочных знаков, в том числе поиск по префиксу, неоднозначен по определению, поскольку входные данные представляют собой частичную строку с потенциальными совпадениями по очень большому количеству разнородных терминов (рассмотрите вход «tour *», совпадения найдены в «tours», «tourettes» , и «турмалин»). Учитывая характер этих результатов, невозможно сделать разумный вывод, какие термины более ценны, чем другие. По этой причине мы игнорируем частоту терминов при оценке результатов в запросах с подстановочными знаками, префиксом и регулярным выражением.В поисковом запросе, состоящем из нескольких частей, который включает частичные и полные термины, результаты частичного ввода включаются с постоянной оценкой, чтобы избежать смещения в сторону потенциально неожиданных совпадений.
Настройка партитур
Есть два способа настроить оценки релевантности в Когнитивном поиске Azure:
- Профили оценки продвигают документы в ранжированный список результатов на основе набора правил. В нашем примере мы могли бы считать документы, совпадающие в поле заголовка, более релевантными, чем документы, совпадающие в поле описания.2 || кондиционер *. Узнайте больше о повышении сроков.
Оценка в распределенном индексе
Все индексы в Когнитивном поиске Azure автоматически разделяются на несколько сегментов, что позволяет нам быстро распределять индекс между несколькими узлами во время увеличения или уменьшения масштаба службы. Когда отправляется поисковый запрос, он направляется каждому сегменту независимо. Затем результаты по каждому сегменту объединяются и упорядочиваются по счету (если не определен другой порядок). Важно знать, что функция скоринга взвешивает частоту термина запроса по отношению к его обратной частоте документа во всех документах в сегменте, а не во всех сегментах!
Это означает, что оценка релевантности может отличаться от для идентичных документов, если они находятся в разных сегментах.К счастью, такие различия имеют тенденцию исчезать по мере роста числа документов в индексе за счет более равномерного распределения терминов. Невозможно предположить, на какой шард будет размещен тот или иной документ. Однако, если ключ документа не меняется, он всегда будет назначен одному и тому же осколку.
В общем, оценка документа — не лучший атрибут для заказа документов, если важна стабильность заказа. Например, для двух документов с одинаковой оценкой нет гарантии, какой из них появится первым при последующих запусках одного и того же запроса.Оценка документа должна давать только общее представление о релевантности документа по сравнению с другими документами в наборе результатов.
Заключение
Успех поисковых систем в Интернете повысил ожидания от полнотекстового поиска по личным данным. Теперь мы ожидаем, что система поймет наши намерения практически для любого вида поиска, даже если термины написаны с ошибками или являются неполными. Мы можем даже ожидать совпадений на основе почти эквивалентных терминов или синонимов, которые мы никогда не указывали.
С технической точки зрения полнотекстовый поиск очень сложен, требует сложного лингвистического анализа и систематического подхода к обработке, позволяющей извлекать, расширять и преобразовывать термины запроса для получения релевантного результата. Учитывая присущие сложности, существует множество факторов, которые могут повлиять на результат запроса. По этой причине потратить время на понимание механизма полнотекстового поиска дает ощутимые преимущества при попытке работать с неожиданными результатами.