Введение
Сегодня идет постоянное увеличение числа и объема сайтов в глобальной сети интернет. Существуют несколько крупных поисковых систем, но их алгоритмы нельзя назвать полностью совершенными, к тому же выдача информации у них не всегда полностью соответствует запросу.
На текущий момент действует российская поисковая система, именуемая Яндекс, но в ближайшем будущем ожидается выпуск нового формата выдачи под названием «острова», что способно вызвать серьезные последствия. Многие специалисты полагают, что это может привести к уменьшению трафика поисковой системы Яндекс, так как пользователи начнут искать альтернативные варианты.
При создании нового поискового портала следует учитывать особенности русского языка, геозависимость, а также имеющийся опыт зарубежных коллег (в частности Гугл) и уже действующих аналогов, таких как Рамблер и Яндекс.
Разработка поискового портала
В Российской Федерации используются несколько поисковых систем, в частности это Яндекс, Гугл, Майл, Рамблер. Из них лидерами выступают Яндекс и Гугл, причем Яндекс собирается вводить новый алгоритм и спрогнозировать, что будет после полного запуска островов не представляется возможным. Гугл является мировой поисковой системой, поэтому не способен учитывать особенности каждой из стран.
Поисковый сайт (портал) должен выполнять поиск информации на некоторых сетевых ресурсах или же по всей сети интернет. Создание поискового портала имеет отличия от формирования сайтов других направлений. При работе над таким ресурсом значительное внимание должно уделяться именно программной составляющей. Каждый начинающий web-разработчик способен сформировать поисковую систему с помощью имеющихся готовых скриптовых движков или web-сервисов.
Для того чтобы реализовать простую поисковую систему, можно использовать один из большого количества готовых скриптов, которые обладают своими достоинствами и недостатками. Из значительного количества движков, доступных для web-мастеров, можно выделить DataparkSearch Engine. Он способен поддерживать поиск с заданием разных параметров (учет акронимов, аббревиатур, поиск форм слова), рейтинга популярности, возможности сортировки по целому ряду параметров. Из числа не таких масштабных и более легких систем следует выделить Sphider, PhpDig и RiSearch.
Для начала работы следует ознакомиться с требованиями к серверу каждого из движков, прочитать отзывы и выяснить возможные проблемы при установке на форумах, посвященных программированию. Затем следует перейти на официальный сайт выбранного скрипта и загрузить последнюю версию.
Далее необходимо распаковать скачанный архив и ознакомиться с прилагаемой документацией, которая обычно оформлена в виде файла readme, содержащем подробную инструкцию по установке.
Затем следует загрузить распакованную директорию на сервер с помощью какого-либо FTP-клиента (CuteFTP или Total Commander), произвести установку и настройку скрипта согласно инструкции из архива. Как правило, достаточно осуществить запуск инсталляционного файла в окне браузера (например, install.php). После этого можно выполнить настройку и указать определенные параметры используемого хостинга, выполняя указаниям на экране.
На каком-то из этапов может потребоваться задать параметры базы данных (БД) MySQL. В этом случае следует создать с помощью панели управления хостингом базу данных для поисковика и указать ее название. Также следует указать имя пользователя MySQL и пароль для организации доступа к соединению. По завершении установки следует зайти в панель администратора движка и настроить нужные параметры работы скрипта и поиска.
Много популярных сервисов, как указывалось выше, к примеру, Google и Yandex, предоставляют возможность создания на их базе собственного ресурса, способного осуществлять поиск с заданными критериями. Для того чтобы воспользоваться этим сервисом, следует зарегистрироваться в одной из поисковых систем и внимательно изучить условия использования. Необходимо также указать названия сайтов, на которых следует проводить индексацию, а далее нужно интегрировать на свой портал код, который был получен после прохождения регистрации.
К основным особенностям ранжирования следует отнести:
- Для Яндекса это соблюдение тематики сайта и актуальности информации, а также с некоторых пор и поведенческий фактор.
- Для Гугл это в значительной мере учет авторитетности сайта и количества вхождений ключевых слов в текст.
При разработке модели системы и поискового алгоритма можно взять за основу базовые алгоритмы Яндекса и Гугла и смешать их. Тогда входными параметрами будут:
- Параметр уникальности текста.
- Параметр поведенческого фактора.
- Параметр авторитетности.
Выходными данными в таком случае станет позиция сайта в выдаче. К числу возможных проблем с алгоритмом следует отнести:
- Возможность «черной» оптимизации, то есть, это радикальные методы над сайтом, направленные лишь на манипуляцию поисковой выдачей. Поисковиками подобные методы должны расцениваться как поисковый спам.
Возможность ошибки автоматического алгоритма. В таких случаях могут использоваться следующие способы решения:
Отслеживание резкого изменения параметров.
- Если возникает такая необходимость, то использование ручной проверки данных.
В качестве критерия для оптимизации алгоритма можно взять увеличение числа входных параметров, к которым следует прибавить:
- Параметр геозависимости (вплоть до районов/округов).
- Параметр поисковой истории пользователя.
Геозависимость может потребоваться, например, при заказе пиццы, выборе автосервиса, музеев, кинотеатров, муниципалитета и так далее. То есть, весьма удобным является заказ пиццы, расположенной недалеко от дома пользователя.