Поисковые системы интернета — это компьютерные программы, которые предназначены для помощи в поиске информации в глобальной компьютерной сети.
Поисковые системы: предназначение и виды
Под поисковой системой понимается компьютерная программа, которая предназначена для выполнения поисковых операций в информационной среде.
Самым распространёнными системами для поиска информации являются веб-сервисы по поиску различных информационных данных во всемирной сети интернет. Кроме того, есть системы, которые способны найти файлы в FTP-серверах, нужную продукцию в магазинах, работающих в интернете, различную новостную информацию.
Чтобы найти нужные данные при посредстве поисковых систем, пользователь составляет специальный запрос, по которому и ведётся поиск. Функционирование системы поиска состоит в том, что по пользовательскому запросу находится документация, которая содержит или какие-либо заданные ключевые слова, или фразы каким-то образом имеющие корреляцию с ними. В результате поиска формируется страница, отображающая поисковые результаты. Там могут содержаться разные виды данных, например, веб-страницы, графика, фото, звуковые файлы. Отдельные системы поиска способны извлечь информацию из тематических информационных баз и других интернет-ресурсов.
Рейтинг поисковой системы тем выше, чем больше она способна обнаружить информации, соответствующей пользовательскому запросу. Поисковые итоги могут быть не полностью соответствующими запросу, что определяется особенностями применяемого системой алгоритма.
По способам поисковых операций и методике обслуживания, поисковые системы делятся на следующие виды:
- Системы на основе поисковых роботов.
- Системы, которыми управляют люди.
- Системы гибридного класса.
- Системы мета класса.
Структурная организация поисковых систем включает следующие элементы:
- Программа-робот, которая собирает информацию в сети Интернет.
- Программа индексации, которая обеспечивает быструю ориентацию в собранной информации.
- Программа поиска, которая является графическим интерфейсом пользователя.
История разработки поисковых систем интернета
Одной из первых компьютерных программ, выполняющих поиск информации в интернете, стала программа Арчи, разработанная в девяностом году прошлого века. Она выполняла скачивание перечня всех файлов с видимых ею серверов и формировала информационную базу, в которой имелась возможность поиска согласно имени файла. Но Арчи не выполняла индексацию содержимого файлов, поскольку в этом не было необходимости из-за небольшого объёма данных. Все последующие операции можно было легко сделать в ручном режиме. Затем разработка и внедрение нового сетевого протокола Gopher, стало стимулом к появлению ещё двух поисковые системы, Veronica и Jughead. По аналогии с Арчи, они тоже выполняли поиск имён файлов и заголовков, которые сохранялись уже в системах индексации Gopher.
В конце девяностых годов прошлого века Google, тогда ещё небольшая фирма, стала продавать ключевые слова. Это стало началом перехода поисковых систем от прямой конкуренции друг с другом к практическому использованию самого выгодного коммерческого использования возможностей интернета. Поисковые системы начали осуществлять продажу первых мест в поисковых итогах разным фирмам.
С начала двадцать первого века система поиска Google занимает лидирующие позиции в мире. Успех фирме принесли отличные поисковые характеристики, реализованные на основе алгоритма PageRank. Данный алгоритм, имеющий итеративную основу, выполняет ранжирование веб-страницы, основанное на количестве гиперссылок на эту веб-страницу. При этом предполагается, что на полезные и нужные страницы будет больше ссылок, чем на все остальные. Оформление интерфейса Google выполнено без всяческих излишеств, что отличает его от некоторых конкурирующих программ, встраивающих систему поиска в веб-портал.
В конце девяностых годов прошлого века была спроектирована поисковая машина Altavista, способная выполнять поиск на символах русского языка. Кроме того, примерно в это же время были реализованы русскоязычные системы поиска Рамблер и Апорт. Затем появилась ещё одна система, которая стала впоследствии необычайно популярной, это Яндекс. В мае четырнадцатого года этого века фирма Ростелеком реализовала национальную поисковую машину Спутник.
Принципы работы поисковых систем интернета
В основе практически всех поисковых систем лежат три главных компонента:
- Программа поискового робота.
- Программа выполнения индексации.
- Программа поиска в индексированном информационном массиве.
Эти три компонента включаются в работу поочерёдно. Вначале программа поискового робота находит информацию, соответствующую поисковому запросу. Далее, программа индексации формирует необходимые для поиска информационные индексы, и уже на последнем этапе программа поиска ищет в проиндексированных данных наиболее важную информацию. Для обновления поисковой системы, вышеназванные действия повторяются. При работе систем поиска, они сохраняют информацию о большом числе веб-страниц, которую они извлекают из HTML-страниц. Программа поискового робота (Crawler) в автоматическом режиме выполняет проход по каждой ссылке, которая обнаружена на странице, и помечает её. Далее Crawler, опираясь на найденные ссылки или на базе определённого перечня адресов, ищет новые документы, ещё не известные системе поиска. Хозяева интернет-сайтов имеют возможность запретить выполнение индексации некоторых файлов, страниц или каталогов с их сайта с помощью сервиса robots.txt. Поисковая система выполняет анализ содержания всех страниц для выполнения в дальнейшем их индексации.
Программа индексации разбивает страницу на отдельные части, используя специальные алгоритмы лексики и морфологии. Сформированные индексы дают возможность быстрого обнаружения информации согласно пользовательскому запросу.
Программа поиска вырабатывает конечный поисковый результат на основании операций с информацией, переданной программой индексации.