Основные принципы работы поисковика Яндекс — это принципы, позволяющие поисковой системе Яндекс выполнять определение разных словоформ с учетом морфологических особенностей русского языка.
Введение
Интернет имеет в своём составе миллионы сайтов и огромные объёмы информации. Для того, чтобы пользователи имели возможность узнавать о существовании данной информации и использовать её, были созданы специальные поисковые системы. Они осуществляют право пользователей на доступ к любой информации, которая им требуется на данный момент. Поисковая система является техническим средством, при помощи которого пользователи интернета могут отыскать информационные данные, уже имеющиеся в сети Интернет.
Пользователи могут искать в интернете самые разнообразные данные, начиная научными работами, и заканчивая порнографическими материалами. Проектировщики полагают, что поисковая система в любом случае обязана находить соответствующие страницы, причём она просто выполняет поиск той информации, которая уже имеется в интернете и доступна для всех.
Основные принципы работы поисковой системы Яндекс
Поисковая система Яндекс не считает себя цензором и не может отвечать за содержание различных сайтов, которые встречаются в поисковом индексе. Об этом сообщалось в одном из первых документов компании - «Лицензии на использование поисковой системы Яндекса», опубликованной еще в 1997 году, при старте www.yandex.ru.
Информация, которую удалили из интернета, должна быть удалена и из поискового индекса. Поисковые роботы периодически выполняют обход уже проиндексированных сайтов. Если они обнаруживают, что какой-либо страницы больше нет или она закрыта для индексирования, то она удаляется и из поиска. Чтобы ускорить этот процесс следует использовать форму «Удалить URL».
В ответ на запрос, введённый пользователем в поисковой строке, поисковая система должна показать ссылки на известные ей страницы, в тексте которых (а также в метатегах или в ссылках на эти сайты) содержатся слова, указанные в запросе. Практически всегда таких страниц бывает достаточно много, настолько много, что пользователю просто нереально просмотреть их все. По этой причине важно не просто найти их, но и реализовать их упорядочение так, чтобы сверху находились именно те страницы, которые наилучшим образом подходят для ответа на сформированный запрос. То есть, они являются наиболее релевантными к запросу. Релевантностью считается самое лучшее соответствие интересам пользователя, который ищет информацию.
Релевантность обнаруженных страниц по полученному запросу Яндекс может определить полностью в автоматическом режиме при помощи сложных формул, которые учитывают огромный набор свойств запроса и документа. Процесс упорядочивания полученных результатов по их релевантности именуется ранжированием. Именно ранжирование определяет качественные показатели поиска, то есть, насколько поисковая система способна показать пользователю необходимый и ожидаемый результат. Формулы ранжирования выстраиваются также в автоматическом режиме, а именно, при помощи машинного обучения, которое постоянно совершенствуется.
Качество поиска является самым важным аспектом для всех поисковых систем. Когда система плохо справляется с поиском, пользователи просто перестают ей пользоваться. По этой причине необходимо постоянно улучшать алгоритмы ранжирования и сделать их устойчивыми к внешним воздействиям. К примеру, к попыткам отдельных веб -мастеров обманывать поисковые системы. Поэтому Яндекс никогда не продаёт места в результатах поиска. То есть на результаты поиска не могут оказать влияние политические, религиозные и любые другие взгляды сотрудников компании Яндекс.
Пользователи выполняют просмотр страницы результатов поиска сверху вниз. Поэтому Яндекс отображает сверху, в числе первых результатов, тот набор документов, которые содержат самые подходящие пользователю ответы. То есть те ответы, которые являются наиболее релевантными полученному запросу. Из всего набора возможных релевантных документов Яндекс всегда выбирает самый лучший вариант.
С данным принципом сопряжено несколько правил, применяемых Яндексом к отдельным типам сайтов. Данные правила исполняются полностью в автоматическом режиме, то есть, их исполняют алгоритмы, а не специалисты. Правила следующие:
- Есть страницы, явно ухудшающие качество поиска. Они специально реализованы для обмана поисковых систем. Для этого, к примеру, на странице помещают невидимый или бессмысленный текстовый набор. Или формируют промежуточные страницы, которые реализуют перенаправление пользователей на сторонние сайты. Некоторые сайты способны замещать страницу, с которой осуществил переход пользователь, на какую-либо другую страницу. То есть, если пользователь перешёл на такой сайт по ссылке из результатов поиска, а потом захотел снова вернуться к результатам поиска и посмотреть другие результаты, то он увидит какой-либо другой ресурс. Данные ресурсы не интересны для пользователя и способны ввести его в заблуждение, что, естественно, ухудшает качество поиска. Яндекс в автоматическом режиме удаляет их из поиска или же понижает в ранжировании.
- Случается, что в некоторых документах имеется полезная информация, но она воспринимается очень сложно. К примеру, существуют сайты, содержащие popunder-баннеры, которые перемещаются по экрану вслед за прокруткой страницы и могут закрыть ее содержимое, а при попытке закрыть такой баннер, открывается новое окно. Есть также сайты, содержащие clickunder-рекламу, которая неожиданно для пользователя может открыть рекламную страницу при любом клике по сайту, включая ссылки. С точки зрения Яндекса, оба этих вида рекламы могут мешать навигации по сайту и нормальному восприятию информации. Поэтому сайты с данной рекламой помещаются в поисковой выдаче ниже, чем сайты, на которых пользователь может найти ответ на свой вопрос без излишних проблем.