Справочник от Автор24
Найди эксперта для помощи в учебе
Найти эксперта
+2

Поиск информации в сети Интернет

Определение 1

Интернет — это глобальная компьютерная сеть, которая объединяет миллионы компьютеров во всем мире в единую информационную систему.

Введение

Существуют следующие основные способы нахождения требуемой информации в сети Интернет:

Указание адреса нужной страницы. Осуществление просмотра гиперссылок и перемещение по ним. Реализация поиска с помощью специальных поисковых систем.

По статистическим данным отдельных источников популярность разных поисковых систем, применяемых пользователями интернета в нашей стране, следующая:

  1. Поисковая система Яндекс используется 53,9 % пользователей.
  2. Поисковая система Google используется 35 % пользователей.
  3. Поисковая система Mail.ru используется 8,3 % пользователей.
  4. Поисковая система Rambler используется 0,9 % пользователей.

Причём:

  • Поиск в Яндекс картинках производят 0,6 % пользователей.
  • Поиск в Google картинках производят 0,2 % пользователей.

Поиск информации в сети Интернет

Любая поисковая система при осуществлении операций поиска осуществляет следующую очерёдность процедур:

  1. Осуществление сбора информации роботом пауком, который предназначен для поиска.
  2. Осуществление индексирования информации.
  3. Осуществление поиска в информации, которая прошла индексацию.

Осуществление сбора информационных данных роботом пауком реализуется в два прохода. Прежде всего, выполняется скачивание веб-страницы, а далее осуществляется анализ имеющихся ссылок. Скачивание реализуется программой Spider, называемой быстрым поисковым пауком, которая поочерёдно выполняет перебор и скачивание веб-страниц для их последующего анализа.

Данная программа получает с различных сайтов веб-страницы по определённому алгоритму и затем выполняет их передачу следующей программе, именуемой Crawler. Эта программа считается медленным пауком анализатором, и она должна обнаружить все ссылки и сформировать дальнейшую программу действий для быстрого паука. Spider обладает некоторым перечнем сайтов, подлежащих посещению, которые заранее были подготовлены другими поисковыми подсистемами. Из этого списка Spider может получить всю необходимую информацию.

«Поиск информации в сети Интернет» 👇
Помощь эксперта по теме работы
Найти эксперта
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

После завершения сбора информации, следует выполнение её индексации. Программа индексации реализует сортировку всей предоставленной пауками информации таким образом, чтобы в дальнейшем с ней было просто работать. Она по частям выполняет анализ содержимого страницы. Осуществляется выделение из станицы заголовков, ссылок, текстовой информации, структурных элементов и тому подобное. Вся информация далее должна быть подвергнута структуризации по специализированному алгоритму, и затем сформированные данные поступают в информационную базу.

Далее выполняется поиск в совокупности проиндексированной информации. Это этап определения итогов, на котором выполняется анализ полученной базы. Подсистема определяет, какие из найденных страниц соответствуют запросу пользователя, и показывает итоги поисковых операций. Отбор требуемых результатов реализуется согласно следующим критериям:

  1. Наличие ключевого слова в заголовке.
  2. Наличие ключевого слова в доменном имени или адресе страницы.
  3. Исследование стилевого формата текста на странице. То есть, используются ли типы текста «Жирный» или «Курсив», используются ли различные типы заголовков.
  4. Выполнение анализа частоты применения ключевого слова на странице, то есть «плотность» использования ключевого слова.
  5. Осуществление анализа совпадений в области расположения метаданных.
  6. Реализация проверки наличия ссылок на странице и их направления, и есть ли ключевое слово в текстовой ссылке.
  7. Реализация проверки, откуда идут ссылки на изучаемую страницу. Выполнение анализа текста ссылки.
  8. Осуществление проверки ссылок внутри страницы.

В результате этих операций сравнения, поисковая подсистема находит требуемые веб-страницы и предоставляет их пользователю, который сделал поисковый запрос.

В действительности может быть найден любой тип информации, которая является общедоступной в сети интернет, и не попадает под запрет политики системы поиска. Когда пользователь осуществляет поиск какой-либо информации в сети интернет, ему следует иметь в виду следующие моменты:

  1. Фактически вся информация, находящаяся в сети Интернет, не проходит жёсткий контроль, и любой пользователь, который имеет персональный компьютер с выходом в интернет, может выложить в сеть любую информацию. Это значит, что всегда есть вероятность присутствия в сети недостоверной информации.
  2. Иногда отсутствует возможность определить истинного автора информации.
  3. Часто источник информации тоже неизвестен.
  4. Найденные информационные сообщения часто носят предвзятый характер, их целью является введение в заблуждение, и часто они являются просто недостоверными.
  5. Может быть не проставлена дата публикации информации, что может поставить под сомнение её актуальность.

Чаще всего пользователь ищет поиском в интернете следующие темы (они располагаются в порядке убывания частоты запросов):

  1. Разные социальные сети (в контакте, одноклассники и тому подобное).
  2. Запросы порнографию.
  3. Разные кинофильмы.
  4. Различные картинки.
  5. Музыкальные произведения.

Примерно три процента от всех приходящих в поиск запросов сформулированы в форме вопросов. В максимальном количестве данных запросов в качестве первого слова, используются: какой, сколько, кто. Необходимо выделить ещё одну сегодняшнюю тенденцию, примерно десять процентов запросов содержат прямое действие, то есть, купить, продать или что-либо получить. Наиболее употребляемым уточнением в сегодняшнем российском сегменте интернета являются слова «скачать» и «бесплатно».

При поиске по изображению можно использовать сервис нахождения картинок на основании цифрового кода изображения от Google.

Дата написания статьи: 08.07.2021
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot