Известны следующие методы нахождения требуемых информационных данных в сети интернет:
- Указание адреса нужной страницы.
- Просмотр гиперссылок и перемещение по ним.
- Поиск при помощи поисковой системы.
Поисковые системы сети интернет
По статистическим данным некоторых источников популярность различных поисковых систем, используемых российскими пользователями интернета, следующая:
- Поисковую систему Яндекс используют 53,9 % пользователей.
- Поисковую систему Google используют 35 % пользователей.
- Поисковую систему Mail.ru используют 8,3 % пользователей.
- Поисковую систему Rambler используют 0,9 % пользователей.
При этом:
- Поиск в Яндекс картинках используют 0,6 % пользователей.
- Поиск в Google картинках используют 0,2 % пользователей.
Все поисковые системы при выполнении поисковых операций соблюдают такую очерёдность действий:
- Выполняется сбор информации роботом пауком, предназначенным для поиска.
- Выполняется индексирование информационных данных.
- Выполнение поиска в информационных данных, прошедших индексацию.
Сбор информационных данных роботом пауком выполняется за два этапа. Сначала скачивается веб-страница, а затем анализируются ссылки. Скачивание выполняется программой Spider, именуемой быстрым поисковым пауком, которая последовательно перебирает и скачивает веб-страницы для последующего их анализа. Эта программа принимает с разных сайтов веб-страницы по заданному алгоритму и передаёт их следующей программе Crawler. Эта программа называется медленным пауком анализатором, и она обнаруживает все ссылки и формирует дальнейшую программу действий для быстрого паука. Spider имеет некоторый перечень сайтов, подлежащих посещению, который заранее подготовили другие поисковые подсистемы. Из этого перечня Spider должен получить всю требуемую информацию.
По завершении сбора информации, начинается её индексация. Программа индексации сортирует всю предоставленную пауками информацию таким образом, чтобы дальше с ней было легко работать. Она по частям анализирует содержимое страницы. Выполняется выделение из станицы заголовков, ссылок, текстовой информации, структурных элементов и так далее. Вся информация затем подвергается структуризации по специальному алгоритму, и далее сформированные данные записываются в информационную базу.
Далее осуществляется поиск в наборе проиндексированной информации. Это этап формирования итогов, на котором анализируется полученная база. Подсистема должна определить, какие из найденных страниц соответствуют пользовательскому запросу, и показать итоги поисковых действий. Отбор нужных результатов осуществляется по следующим критериям:
- Присутствие ключевого слова в заголовке.
- Присутствие ключевого слова в доменном имени или адресе страницы.
- Изучение стилевого построения текста на странице. А именно, применяется ли типы текста «Жирный» или «Курсив», применяются ли разные заголовочные типы.
- Анализируется частота использования ключевого слова на странице, то есть «плотность» применения ключевого слова.
- Анализ совпадений в области, где расположены метаданные.
- Проверка наличия ссылок на странице и куда они направлены, и есть ли ключевое слово в текстовой ссылке.
- Проверка, откуда идут ссылки на исследуемую страницу. Анализ текста ссылки.
- Проверка ссылок внутри страницы.
В итоге этих операций сравнения, поисковая подсистема определяет необходимые веб-страницы и выводит их пользователю, сделавшему поисковый запрос.
Какую информацию можно найти в интернете?
На практике можно найти любой тип информации, которая общедоступна в сети интернет, и не попадает под запрет политикой системы поиска. Когда пользователь ищет какую-то информацию в сети интернет, он должен помнить о следующих моментах:
- Практически вся информация, распространяемая в интернете, не подвергается жёсткому контролю и каждый пользователь, имеющий персональный компьютер с выходом в интернет, способен выложить информацию. Это означает, что всегда есть вероятность наличия недостоверных данных.
- Часто нет возможности определить истинного автора информации.
- Иногда источник информации также неизвестен.
- Найденные информационные сообщения могут носить предвзятый характер, их цель ввести в заблуждение, и они могут быть просто неверными.
- Может отсутствовать дата, когда была опубликована информация, что ставит под сомнение её актуальность.
Наиболее часто пользователи ищут поиском в интернете следующие темы (они расположены в порядке убывания частоты запросов):
- Различные социальные сети (в контакте, одноклассники и так далее).
- Запросы порно.
- Различные фильмы.
- Разные картинки.
- Музыкальные произведения.
Около трёх процентов всех поступающих в поиск запросов формулируются в форме вопросов. В наибольшем количестве таких запросов в качестве первого слова, используются: какой, сколько, кто. Следует отметить ещё одну нынешнюю тенденцию, примерно десять процентов запросов содержат прямое действие, а именно, купить, продать или что-либо получить. Наиболее употребляемым уточнением в сегодняшнем российском сегменте интернета являются слова «скачать» и «бесплатно».
Другие методы поиска информации в интернете
При поиске по изображению можно использовать сервис нахождения картинок на основании цифрового кода изображения от Google. Можно воспользоваться каким-либо графическим редактором, нарисовать там примерную копию искомого изображения и переместить её в сервис поиска Google на основании картинок. Как правило, в поисковых итогах по картинкам всегда обнаружится требуемое изображение, даже если созданная пользователем его примерная копия не очень удачна.
Возможен поиск по файловому типу. При этом возможно, к примеру, скачивание шаблона каких-либо документов или самих документов, если они находятся в общем доступе.