Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Компьютерные сети
Термин «информация» происходит от латинского слова «informatio», что означает «разъяснения», и, по сути, предполагает наличие некоторого диалога между отправителями и получателями информации.
Это понятие вошло в употребление в середине XX в. Клод Шеннон ввел этот термин в узком техническом смысле, применительно к теории связи, которая получила название «Теория информации». По определению К. Шеннона, информация — это снятая неопределенность, т.е. это только те сведения, которые полностью снимают или уменьшают существующую неопределенность. Шеннон разделил понятия информация и сообщения, т.к. информацией признавались лишь те сообщения, которые способны уменьшить степень неопределенности получателя информации в отношении того или иного объекта, явления или процесса. Шеннон установил меру количества информации. Теория Шеннона позволила математически рассчитать и позже увеличить пропускную способность каналов связи. В теории информации ввели единицу ее измерения – «БИТ». Позже идеи К. Шеннона развил и дополнил американский учёный Норберт Винер.
А в кибернетике, по определению Н. Винера, под информацией понимают ту часть знаний, которая используется для ориентирования, активного действия, управления, т. е. в целях сохранения, совершенствования, развития системы. Благодаря Винеру понятие информация стало центральным в кибернетике.
"Информация есть информация, а не материя и не энергия", - писал Норберт Винер, который ввел это понятие в науку, отказавшись от его определения, считая его сродни таким общим категориям, как движение, жизнь, сознание и т. п. Ему вторит известный американский специалист в области информатики Т. Сарацевич: "Все недовольны тем, что информационная наука не хочет потрудиться над определением информации... На самом же деле ни одна современная наука не имеет определений своих основных феноменов. В биологических науках нет определения жизни, в медицинских - здоровья, в
физике - энергии, в электротехнике - электричества, а в ньютоновских законах - противодействия. Это просто основные явления, и эта их первичность и служит им определением".
Семантическая теория трактует информацию как сведения, обладающие новизной.
В информатике термин «информация» можно определить как сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы.
Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т. п.), несущую смысловую нагрузку и представленную в «понятном» компьютеру виде.
Определение ЮНЕСКО: информация — это универсальная субстанция, пронизывающая все сферы человеческой деятельности, служащая проводником знаний и мнений, инструментом общения, взаимопонимания и сотрудничества, утверждения стереотипов мышления и поведения.
Информационная технология — система процедур преобразования информации с целью формирования, организации, обработки, распространения и использования информации.
Основные отличительные черты современных информационных технологий:
Дружественность по отношению к пользователям программного и аппаратного интерфейса компьютера с разветвленной системой меню и подсказок
Интерактивный (диалоговый) режим решения задач с широкими возможностями для пользователя оперативно влиять на ход решения.
Сквозная информационная поддержка всех этапов преобразования информации с помощью интегрированной базы данных, унифицированных форм представления информации.
Возможность коллективного решения задач на основе информационных сетей и систем телекоммуникаций, обеспечивающих всем пользователям оперативный доступ к любым техническим, программным и информационным ресурсам системы.
Безбумажная технология, при которой основным носителем информации является не бумажный, а электронный документ, формируемый на машинном носителе (в памяти компьютера) и доводимый до пользователя через экран дисплея.
Технологический процесс преобразования информации в общем случае может включать в себя такие процедуры (стадии), как получение, сбор и обработка.
Практически сразу после появления ЭВМ возник вопрос о налаживании взаимодействия компьютеров друг с другом, чтобы более эффективно обрабатывать информацию, использовать программные и аппаратные ресурсы. Появились первые сети, в то время объединявшие только большие ЭВМ в крупных компьютерных центрах. Однако, настоящий «сетевой бум» начался после появления персональных компьютеров, быстро ставших доступными широкому кругу пользователей – сначала для работы, а затем и дома. Компьютеры стали объединять в локальные сети, а локальные сети – соединять друг с другом, подключать к региональным и глобальным сетям.
Сеть (Network) – группа компьютеров и\или других устройств, каким-либо способом соединенных для обмена информацией и совместного использования ресурсов. Под ресурсами здесь понимаются программы, файлы данных, а также принтеры и другие совместно используемые периферийные устройства в сети.
Задачи ИВС (информационно-вычислительных сетей):
• хранение данных;
• обработка данных;
• организация доступа пользователей к данным;
• передача данных и результатов обработки данных пользователям.
Классификация компьютерных сетей
1. В зависимости от расстояния между связываемыми узлами сети можно разделить на три основные класса: локальные, региональные и глобальные
Локальная вычислительная сеть (LAN – Local Area Network) – небольшая группа компьютеров, связанных друг с другом и расположенных обычно в пределах одного здания или организации.
Региональная сеть (MAN – Metropolitan Area Network)– сеть, соединяющая множество локальных сетей в рамках одного района, города или региона.
Глобальная сеть (WAN – Wide Area Network) – сеть, объединяющая компьютеры разных городов, регионов и государств.
Объединение глобальных, региональных и локальных ВС позволяет создавать многоуровневые иерархии. Например, Интернет:
Взаимодействие компьютеров в сети
Для того, чтобы компьютеры начали «диалог» необходимо их объединить в сеть. Для этих целей применяются сетевые кабели различных типов, телефонные или спутниковые каналы, а в последнее время все более популярными становятся беспроводные решения. Но соединить компьютеры друг с другом недостаточно, необходимо их научить «говорить» друг с другом. Для этого требуются сетевые операционные системы, поддерживающие один и тот же набор протоколов. И только после этого, запустив сетевое приложение, можно будет передать сообщение с одного компьютера на другой, например.
Чтобы общаться, люди чаще всего используют устную речь. Однако, это возможно только в том случае, когда собеседники находятся рядом и только в воздушной среде. Но допустим, что надо передать сообщение человеку, живущему в другом городе или другой стране. Здесь не обойтись без целого ряда определенных действий: написать текст, подписать его, вложить в конверт, указать адреса получателя и отправителя, наклеить марку и отдать почтальону. Дальнейшая судьба этого письма от вас не зависит, а зависит от почтовой службы. Далее, каким-либо способом письмо доходит до страны или города назначения, затем доставляется в его почтовое отделение, и уже потом – по конкретному адресу. И только после этого можно прочесть письмо.
Также практически общаются и компьютеры. Им приходится прибегать к целому ряду последовательно выполняемых процедур, называемых сетевыми протоколами. Чтобы протоколы работали надежно и согласовано, каждая операция в них строго регламентируется. А чтобы программы и оборудование разных производителей могли взаимодействовать друг с другом, протоколы должны соответствовать промышленным стандартам.
Протокол – набор правил и процедур, регулирующих порядок взаимодействия компьютеров в сети.
Интерфейс определяет набор функций, которые нижележащий уровень предоставляет вышележащему.
Протоколы
Чтобы «научить» компьютеры общаться друг с другом, не достаточно построить сеть. Нужно научить сетевые приложения «разговаривать» - обмениваться данными с помощью протоколов на уровнях, более высоких, чем канальный. Поскольку этих уровней несколько, нам потребуется не один, а несколько протоколов, объединенных в набор, или, как говорят, в стек.
Самым распространенным на сегодняшний день является набор протоколов – стек TCP/IP.
История развития стека TCP/IP (как и история Интернета) началась еще в конце 60-х гг. прошлого, XX века с проекта ARPANet — сети Агентства перспективных исследовательских проектов (Advanced Research Project Agency Network) Министерства обороны США. Поскольку для военных во времена «холодной войны» была особенно важна возможность передачи данных даже в условиях атомных бомбардировок, ARPANet задумывалась как высоконадежная сеть, объединяющая военные, государственные и научные учреждения. Получившаяся в результате сеть и разработанный несколько позже (в 70-х гг.) стек протоколов TCP/IP оказались настолько удачными, что даже после прекращения финансирования проекта ARPANet Министерством обороны продолжали жить и успешно развиваться, создав основы современного Интернета.
Чтобы понять, как и для чего существует этот набор протоколов, вернемся к аналогии с почтой.
Пусть вам надо переслать в издательство целый роман, а в письмо разрешается вкладывать не больше нескольких страниц текста. Чтобы в такой ситуации ничего не потерять при пересылке и не перепутать при приеме рукописи в печать, вначале хорошо бы договориться с издательством о системах обозначения именно для вашего романа (есть ведь и другие авторы!) и о нумерации сообщений. Для этого нужно послать письмо, извещающее издательство о вашем намерении переслать роман, в котором указать исходящий номер вашего следующего сообщения. Издательство подтвердит получение вашего сообщения и в ответном письме сообщит вам свои исходящие и входящие номера, а вы подтвердите получение этих номеров. Таким образом, обе стороны согласуют номера сообщений, которые они позже будут ожидать друг от друга, что и означает установку связи. Дальше вам остается только разделить роман на небольшие части и посылать каждую в отдельном письме, а издательству — подтверждать получение этих частей. Ошибки работы почты (если какое-то сообщение не дойдет до издательства из-за потери или повреждения письма либо придет вне очереди) легко определить по входящим и исходящим номерам, чтобы принять соответствующие меры — заново переслать утерянную часть или собрать страницы романа в нужном порядке.
Примерно так же работает и протокол TCP:
• устанавливает соединение между компьютерами по определенным портам;
• на компьютере-отправителе разбивает информацию на пакеты, нумерует их и с помощью протокола IP передает получателю;
• на компьютере-получателе проверяет, все ли пакеты получены, а если пакет пропущен или поврежден, запрашивает у отправителя повторную пересылку;
• после получения всех пакетов закрывает соединение, собирает пакеты в нужном порядке и передает полученные данные приложению более высокого уровня.
Очевидно, почтовые отправления в этом примере являются аналогами IP-пакетов, а почтальоны выполняют функции протокола IP.
Несмотря на существование большого количества наборов протоколов, основным сегодня является общедоступный стек TCP/IP. Он используется практически повсеместно, начиная с небольших домашних сетей и заканчивая крупнейшей сетью — Интернетом.
На физическом уровне стек TCP/IP поддерживает работу со всеми основными сетевыми технологиями локальных и глобальных сетей, на сетевом — обеспечивает логичную систему адресации и эффективной межсетевой маршрутизации, на транспортном уровне — протоколы как гарантированной, так и быстрой доставки данных, а на уровне приложений — целую гамму разнообразных протоколов.
IP-адресация и маршрутизация
Первым обязательным параметром в свойствах протокола TCP/IP любого компьютера является его IP-адрес.
IP-адрес — это уникальная 32-разрядная последовательность двоичных цифр, с помощью которой компьютер однозначно идентифицируется в IP-сети.
Для удобства работы с IP-адресами 32-разрядную последовательность обычно разделяют на 4 части по 8 битов (на октеты), каждый октет переводят в десятичное число и при записи разделяют эти числа точками. В таком виде (это представление называется «десятичные числа с точками», или, по-английски, «dotted-decimal notation») IP-адреса занимают гораздо меньше места и намного легче запоминаются (табл. 8.1).
Многие активно развивающиеся в техническом отношении страны (Китай, Япония, Корея и др.) начинают испытывать дефицит IP-адресов, идентифицирующих не только компьютеры, но и другие устройства с функциями доступа в Интернет. Принятый сейчас 32-битовый стандарт обеспечивает количество IP-адресов, равное почти 4,3 млрд., но их большая часть закреплена за США (около 70%), Канадой и европейскими странами, а вот, например, КНР получила их всего 22 млн.
Новая, 128-разрядная версия протокола IP v.6 позволит увеличить количество IP-адресов до огромной величины — 3,4x1038.
Распределением IP-адресов в мире занимается частная некоммерческая корпорация под названием ICANN (Internet Corporation for Assigned Names and Numbers), а точнее, работающая под ее патронажем организация IANA (Internet Assigned Numbers Authority).
Все используемые в Интернете адреса, как мы уже говорили, должны регистрироваться в IANA, что гарантирует их уникальность в масштабе всей планеты. Такие адреса называют реальными, или публичными (public) IP-адресами.
Для локальных сетей, не подключенных к Интернету, регистрация IP-адресов, естественно, не требуется, так что, в принципе, здесь можно использовать любые возможные адреса. Однако, чтобы не допускать возможных конфликтов при последующем подключении такой сети к Интернету, рекомендуется применять в локальных сетях только следующие диапазоны так называемых частных (private) IP-адресов (в Интернете эти адреса не существуют и использовать их там нет возможности):
• 10.0.0.0 — 10.255.255.255;
• 172.16.0.0—172.31.255.255;
• 192.168.0.0—192.168.255.255.
Основы функционирования Интернет
В основе функционирования глобальной сети Интернет лежат три составляющие:
• техническая,
• технологическая и
• организационная.
Техническая основа Интернета
Техническую основу Интернета составляет опорная сеть, структура которой образована узлами, соединенными между собой линиями связи с высокой помехозащищенностью, пропускной способностью и низким затуханием.
Как правило, это оптоволоконные или спутниковые каналы связи. Узел опорной сети обычно представляет собой несколько мощных компьютеров, находящихся в состоянии постоянного подключения. Эти компьютеры должны обладать высоким быстродействием и большим объемом как внешней, так и оперативной памяти. Они называются хост-компьютерами (host - хозяин) и работают в круглосуточном режиме, что обеспечивается за счет дублирования. С узлами опорной сети соединяются локальные сети или индивидуальные пользователи.
Интернет-провайдер — организация, предоставляющая услуги доступа к сети Интернет и иные связанные с Интернетом услуги.
Технологическая основа Интернета
Технологическую основу функционирования глобальной сети составляют сетевые протоколы — набор правил, позволяющих осуществлять соединение и обмен данными между двумя и более включёнными в сеть устройствами. Наиболее существенную роль для обеспечения работы Интернета играют протоколы TCP/IP и HTTP.
Отличительной особенностью Интернета является высокая надежность. При выходе из строя части компьютеров и линий связи сеть будет продолжать функционировать. Такая надежность обеспечивается тем, что в Интернете нет единого центра управления. Если выходят из строя некоторые линии связи или компьютеры, то сообщения могут быть переданы по другим линиям связи, так как сетевая структура Интернета всегда обеспечивает несколько путей передачи информации.
Протокол HTTP предполагает, что документы, размещаемые в сети Интернет, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.
Гиперссылка — это объект в документе, с которым связан указатель для перехода на другую страницу, в другой документ. Для пользователя она выглядит как графическое изображение или текст в электронном документе. Гиперссылки устанавливают связи и позволяют переходить по ним к другим объектам данного или любого другого документа. Документ, содержащий гиперссылки называется гипертекстовым.
Таким образом, использование протокола HTTP позволило разместить в Интернете множество документов, связанных между собой гиперссылками, которое образовало гипертекстовую информационную систему.
Организационная основа Интернета
Организационную основу Интернета составляет система адресации. Каждый узел Интернета имеет свой постоянный адрес, отличающий его от всех других. Как правило, в Интернете используются три способа адресации.
Символьные адреса или доменные имена
Эти адреса предназначены для запоминания людьми и поэтому обычно несут смысловую нагрузку. Символьные адреса легко использовать как в небольших, так и крупных сетях. Для работы в больших сетях символьное имя может иметь сложную иерархическую структуру. Например, http://www.ed.gov.ru/edusupp/metodobesp/. Этот адрес указывает на то, что компьютер с именем edusupp является хранилищем архива документов Федерального агентства по образованию (папка с именем metodobesp). Он включен в сеть Министерства образования и науки РФ, серверу которого присвоено имя ed.gov., и этот сервер зарегистрирован в русскоязычной части Интернета - ru.
Числовые составные адреса (IP-адреса)
Символьные имена удобны для людей, но из-за переменного формата и потенциально большой длины их передача по сети не очень экономична. Поэтому во многих случаях для работы в больших сетях в качестве адресов узлов используют числовые составные адреса. Эти адреса имеют фиксированный и компактный формат. В них поддерживается двухуровневая иерархия, адрес делится на старшую часть - номер сети и младшую - номер узла. Такое деление позволяет передавать сообщения между сетями только на основании номера сети, а номер узла используется только после доставки сообщения в нужную сеть; точно так же, как название улицы используется почтальоном только после того, как письмо доставлено в нужный город
URL - это адрес любого ресурса в Интернете вместе с указанием того, с помощью какого протокола следует к нему обращаться.
Следует заметить, что применение IP-адресов неудобно для человека, а потому с самых ранних времен компьютерам, подключенным к Internet, стали давать символьные имена. Символьное (доменное) имя дает возможность обращаться к компьютеру по имени, что позволяет избавиться от необходимости запоминать его числовой эквивалент. Таким образом, любой компьютер, подключенный к Интернету, имеет свой уникальный адрес цифровой или IP – адрес и доменный. Оба адреса равноправны, но IP – адрес удобен для обработки на ЭВМ, а символьный доменный адрес – для восприятия человеком. Поэтому компьютеры при пересылке информации используют цифровые адреса, а пользователи в работе с Интернетом используют, в основном, доменные.
Службы Интернета
Благодаря использованию различных сетевых протоколов Интернет может обеспечить выполнение двух основных функций:
· быть средством общения между удаленными пользователями;
· быть средством доступа к общим информационным ресурсам, размещенным в Интернете.
Очевидно, что каждая из этих функций может быть реализована с помощью различных средств, что обеспечивает многообразие услуг, предоставляемых пользователям Интернета. Средства обеспечения определенных услуг для пользователей глобальной сети принято называть службами Интернета. При этом коммуникационные службы обеспечивают общение между удаленными пользователями, а информационные - дают возможность пользователям получить доступ к определенным информационным ресурсам, хранящимся в Интернете.
Коммуникационные службы
Очевидно, что может существовать только два режима общения в сети: режим непосредственного общения в реальном масштабе времени, когда пользователи во время общения соединены между собой. Аналогом такого общения является разговор по телефону. Иногда для обозначения такого режима используется термин on-line. Другим режимом является режим отложенного общения (off-line). Примером такого общения в быту является отправка письма или телеграммы.
Прямое общение в Интернете
Форумы прямого общения — IRC (Internet Relay Chat)
Эта система позволяет пользователям Internet и Intranet беседовать в реальном времени. Для получения этой услуги пользователи должны объединиться в каналы, поддерживающие различные темы обсуждения. Одной из популярных программ, обеспечивающих работу в данном режиме, является ICQ. В ноябре 1996 первая версия ICQ (I seek you, т.е. "Я Ищу Вас") была запущена в Интернет и с тех пор распространяется лавинообразно.
Интернет-телефония
Эта служба предоставляет возможность голосового общения через Сеть в режиме on-line. Ее основное преимущество перед телефоном — низкая цена. Качество Интернет-телефонии пока уступает телефонной связи (задержки во времени, искажение звука), но с течением времени эти недостатки постепенно преодолеваются.
Служба Telnet
Данный сервис обеспечивает взаимодействие с удаленным компьютером. Он позволяет превратить компьютер пользователя в удаленный терминал другого компьютера. Все, что вводится на клавиатуре рабочей станции, передается удаленному компьютеру, а получаемые результаты передаются обратно и выводятся на монитор рабочей станции. Установив связь с помощью Telnet, пользователь получает возможность работать с удаленным компьютером, как со "своим", т.е. теоретически получить в свое распоряжение все ресурсы, если к ним разрешен доступ. Реально Telnet предоставляет открытый доступ, но организация взаимодействия полностью определяется удаленным компьютером. Два вида услуг Internet требуют подключения к серверам через Telnet: библиотечные каталоги и электронные доски объявлений.
Отложенное общение в Интернете
Электронная почта — E-mail
Это наиболее старая и одна из самых массовых служб Сети. Ее назначение — поддержка обмена электронными письмами между пользователями. По своей сущности электронная почта - это система обмена электронными сообщениями в компьютерных сетях (в режиме отложенного общения -offline).
Служба телеконференций
Телеконференция - это система обмена электронными сообщениями на определенную тему между абонентами сети (в режиме отложенного общения -offline). Каждый участник получает все материалы на свой почтовый адрес (E:mail). Каждое электронное письмо абонента публикуется на сервере телеконференции и доходит до всех участников.
В отличие от электронной почты, когда пользователь отправляет свое письмо персонально какому-то абоненту или группе абонентов, в телеконференциях письмо направляется одновременно всем ее участникам. В свою очередь, все сообщения, которые поступают в адрес конференции, будут поступать в почтовый ящик пользователя и загружаться в его компьютер во время сеанса связи. Чтобы стать участником телеконференции, на нее нужно подписаться. Для этих целей существуют определенные адреса. Всякая конференция посвящена определенной теме, поэтому переписка в ней происходит только в рамках темы. Службу телеконференций называют по-разному: группы новостей, служба Usenet.
Телеконференции объединяют в себе как коммуникационную, так и информационную функции. С одной стороны, здесь происходит личностное общение, с другой — материалы конференции содержат большой объем полезной информации, которая определенное время хранится на сервере. Эта информация может рассматриваться как некоторый информационный ресурс (электронная газета). Это особенно важно для специалистов, участвующих в конференциях по профессиональной тематике: наука, производство, бизнес, торговля и пр. В материалах конференции можно найти ценные советы, консультации, которые помогут в принятии важных решений.
Информационные службы
Информационные службы предоставляют пользователям возможность доступа к определенным информационным ресурсам, хранящимся в Интернете. Такими ресурсами являются либо файлы в одном из общепринятых форматов, либо различные документы. Использование этих ресурсов обеспечивается с помощью соответствующих служб.
Служба передачи файлов
Часто эту службу называют по имени используемого протокола: FTP (File Transfer Protocol — протокол передачи файлов). Со стороны Сети работу службы обеспечивают так называемые FTP-серверы, а со стороны пользователей — FTP-клиенты. Назначение FTP-сервера — хранение набора файлов самого разнообразного назначения (обычно в архивированном виде).
Файлообменник
Файлообменником называется сервис, предоставляющий пользователю место для хранения его файлов и круглосуточный доступ к ним через web, как, правило, по протоколу http (и возможно по FTP). Такой сервис позволяет удобно «меняться» файлами.
World Wide Web (WWW)
WWW – это распределенная информационная система с гиперсвязями, существующая на технической база всемирной компьютерной сети Internet. Данная информационная система представляет собой сеть документов, связанных между собой гиперссылками. Такие документы называются гипертекстовыми. Так как ссылки могут указывать на любой документ, находящийся в Интернете в любом месте земного шара, данная система и названа Всемирной паутиной.
Наименьшей информационной единицей WWW является Web- страница, представляющая собой совокупность текстовых, графических и мультимедийных файлов, связанных гиперссылками. Группа Web- страниц, принадлежащих одному владельцу и связанных между собой по содержанию, составляют Web – сайт. Хост - компьютер, предназначенный для хранения Web- страниц и Web – сайтов называется Web – сервером. Клиент- программа, предназначенная для просмотра Web – сайтов, называется браузером (от английского browse – просматривать, пролистывать).
Электронные СМИ
Электронные средства массовой информации (СМИ) – удобное средство получения оперативной информации. Практически все современные газеты, журналы, радиостанции, телевизионные каналы (российские и зарубежные) имеют собственные сайты в Интернете, на которых можно ознакомиться с новостями, прослушать и посмотреть информационные сообщения (в режиме реального времени в том числе).
Электронная версия газеты позволяет не только прочесть свежий выпуск, написать и отправить в редакцию отзыв о прочитанном, но и получить доступ к подшивке старых выпусков газеты. На сайтах телеканалов можно просматривать программы новостей и телепередачи, участвовать в on-line конференциях и форумах, обсуждать увиденное, высказывать свое мнение. На сайтах радиостанций можно слушать программы новостей и радиопередачи в режиме on-line.
Комплексные службы Интернета
Внедрение Интернета в практическую деятельность привело к появлению новых служб, объединяющих как коммуникационные, так и информационные возможности глобальной сети. К их числу относятся:
On-line переводчики и словари
Интернет-магазины
В интернет-магазинах можно выбрать самые различные товары, сделать заказ, и выбранные товары будут доставлены вам домой. Таким образом, можно приобретать, например, компакт-диски учебную и художественную литературу. Как правило, такие покупки обходятся дешевле, чем в обычных магазинах.
Системы электронных платежей
Системы электронных платежей позволяют оплачивать широкий спектр услуг, в частности, производить коммунальные платежи. Схема, по которой работают системы электронных платежей, крайне проста для пользователя. Зарегистрировавшись в системе, вы автоматически открываете свой счет. Зачислив на него удобным вам способом нужную сумму денег, вы можете использовать ее для расчетов с партнерами данной системы.
Поиск информации в Интернете
Для поиска информации в обычно используются три способа (См. Рис.1). Первый из них - поиск по адресу. Он применяется, когда пользователю известен адрес информационного ресурса, содержащего необходимую ему информацию. При организации поиска информации по адресу (форма адреса - IP, доменный или URL - в этом случае значения не имеет) пользователю достаточно просто ввести адрес ресурса в соответствующее поле браузера – программы, предназначенной для обеспечения доступа к сетевым ресурсам.
Второй – поиск с помощью навигации по гиперсвязям. При использовании этого вида поиска случае пользователь сначала должен получить доступ к серверу, связанному с соответствующей БД. После этого можно найти документ, используя гиперссылки. Очевидно, что этот способ удобен, когда адрес ресурса неизвестен пользователю. Для использования в качестве исходной точки для поиска при реализации этого способа предназначены Web-порталы - серверы, предоставляющие прямой доступ к некоторому множеству серверов, включая установленные на них информационные ресурсы, а также Web-приложения, которые реализуют Web-сервисы, соответствующие назначению портала. Доступные через портал серверы могут относиться к определенной системе (например - корпоративной) или различным системам и быть специально подобраны по видовому, тематическому или другим признакам документов и данных, содержащихся на их сайтах. Обычно порталы совмещают в себе разнообразные функции с целью удержать клиента как можно дольше. Доминирующим сервисом портала является сервис справочной службы: поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д. Если Web-сайты в большинстве случаев представляют собой наборы статических Web-страниц, то порталы являются совокупностями программных средств и заранее неструктурированной информации, которую эти средства превращают в структурированные данные по запросу конкретных пользователей.
Третий способ поиска предполагает использование поисковых серверов Интернета. Поисковыми серверами называют выделенные хост - компьютеры, в которых размещаются базы данных ресурсов Интернета. Пользовательский интерфейс такого сервера имеет поле для ввода ключевых слов, описывающих тему, интересующую пользователя.
ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.
Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.
Релевантность – это соответствие результатов поиска сформулированному запросу.
После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:
- полнота поиска как отношение числа найденных документов к общему числу релевантных документов;
- точность поиска – отношение числа релевантных документов к общему числу полученных документов;
- актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;
- скорость поиска.
Итак, мы выяснили, что в Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.
Системы DISCOVERY
Понятие «индексированный» и «федеративный» поиск.
Существует два основных подхода к поиску контента в интернете. Первый подход – это подход, который использует практически все поисковые машины: это сканирование Веба. Сканирование путем обхода Веба краулерами или «пауками». Таким образом, они накапливают списки из миллиардов страниц – свой индекс (базу данных, поле поиска). Первоначально его основу составляли те сайты, которые их владельцы регистрировали в каталогах поисковых систем. Сегодня это уже не всегда обязательно. Сегодня машины могут найти новые страницы через ссылки со страниц, которые они уже знают. Краулеры постоянно обходят сайты и их страницы и просматривают ссылки на них. Каждая новая ссылка регистрируется, и «паук» по ней переходит на следующую страницу. Таким образом, поисковые машины открывают сайты, которые они не знали ранее. Этот процесс перехода с одной страницы на другую называется сканированием. Он подобен процессу, когда «паук» перемещается по паутине своей сети. Благодаря этой метафоре веб-сканеры привычно называются «пауками». При создании нового сайта надо просто получить ссылку на него с другого сайта или сделать это самому, разместив такую ссылку. И тогда поисковые машины обнаружат вас.
Проблемой такого подхода (сканирования) является то, что этот метод поиска находит далеко не всё. На деле только очень небольшой процент содержания интернета. Термин Deep Web (Глубокий веб) относится к огромной части Веба, которая находится за пределами досягаемости краулеров. Машины не могут проникнуть в «Глубокий веб», потому что большинство ресурсов, находящихся в нем, не имеют ссылок с уже проиндексированных (сканированных) по ссылкам сайтов. Как такое может быть? Рассмотрим следующий пример. Предположим, что вы исследуете воздействие некоторых опасных химических веществ на человека. Как специалисту вам может быть известно, что эту информацию надо искать в Национальной Библиотеке медицины в разделе токсикологии. Подавляющая часть информации, которую вы там обнаружите, вы никогда не найдете через Google. Почему? Для того чтобы найти нужные вам статьи, вы набрали одно или несколько слов в окне поиска и нажали кнопку «Поиск». Может быть, какую-то часть этой статьи вы обнаружили бы и по ссылкам с сайтов при помощи Google, но это была бы очень незначительная часть. Ведь Google в отличие от человека не предназначен для заполнения форм и выполнения тех или иных функций на сайте. Очевидно, что Google, например, никогда не будет знать, какие поисковые слова надо ввести в форму. Кроме того, даже если бы Google это знал, он не был бы способен релевантно отобрать документы по ключевому запросу. Такой отбор может осуществить только специалист. В общем, Google даже если доберется до «Глубокого Веба» не сможет извлечь из него много полезной информации. Почему Google не заполняет формы? Оказывается, что заполнение форм является трудной задачей. Т.е. практически все библиотечные ресурсы остаются в тени поисковых машин, они не индексируются и не сканируются ими.
Второй подход – федеративный поиск, использование федеративных поисковых систем.
Хотя в большинстве случаев Google не заполняет формы поиска, это именно то, что федеративный поиск, также известный как федеративные поисковые системы, делает. Поисковые машины федеративного поиска включают в себя программное обеспечение, позволяющее алгоритмически заполнять все веб-формы, с которыми они сталкиваются. В отличие от Google, который имеет общий подход сканирования ссылок с любого веб-сайта, федеративные поисковые системы запрограммированы так, чтобы распознавать каждую конкретную форму поиска на конкретном сайте. При этом, специализированное программное обеспечение не только позволяет заполнять формы и имитировать нажатие кнопки «Поиск» на сайте, но и получать выдачу поисковых результатов.
Он помогает находить документы высокого качества в отдаленных уголках интернета, куда не добираются поисковые системы и (что особенно существенно!) на специализированных ресурсах. Федеративный поиск направлен в первую очередь на поиск научных, технических, деловых, правовых документов, находятся ли они на свободных ресурсах или в подписных базах. Это делает федеративный поиск жизненно важной технологией для исследователей и тех, кто профессионально работает с информацией. По этой причине многие корпорации и исследовательские центры берут на вооружение технологии федеративного поиска.
Преимущества федеративного поиска:
Эффективность, экономия времени. Использование федеративного поиска экономит огромные объемы времени для исследователей. Вместо того чтобы каждый раз разыскивать отдельный источник, федеративная поисковая машина проводит поиск от имени исследователя по всем имеющимся базам. Мало того, федеративная поисковая машина еще и связывает контент из различных источников. Пользователь так же как в обычной поисковой машине заполняет единственную форму и получает выдачу результатов на одной или нескольких страницах из всех необходимых баз Deep web.
Качество результатов. Технологии федеративного поиска показывают наилучшие результаты при поиске по обширным базам, таким, как ресурсы исследовательских центров, библиотек, корпораций и государственных ресурсов. Основное различие между федеративной поисковой системой и стандартной поисковой машиной типа Google заключается в том, что пользователь федеративной поисковой машины сам выбирает источники для поиска. Почти в каждом случае источник будет максимально авторитетным. Именно авторитет источника и является критерием попадания его в список баз, с которым работает федеративный поиск. Google, напротив, имеет минимальный критерий для выбора источника поиска. Это ссылки. Если веб-страница не похожа на спам, Google обязательно представит ее среди результатов поиска. Таким образом, федеративная поисковая технология действует в современном интернете подобно библиотекарям в старые времена, которые помогали читателям найти нужные им книги.
Самые последние сведения. Еще одним важным преимуществом федеративного поиска является то, что он ищет контент в режиме реального времени. Данные в реальном времени имеют решающее значение для тех исследователей, которые ищут информацию о предмете или событии, которое часто меняется. В отличие от стандартных поисковых систем типа Google, вы получите сегодняшнее содержание и вам не придется, как это происходит в стандартных поисковых машинах, перебирать сайты с информацией месячной, а то и многолетней давности.
Федеративный поиск нам обеспечивают системы типа Discavery.
Есть еще предпосылки внедрения таких систем в деятельности библиотек. Изменяющиеся условия и появление нового поколения пользователей библиотек, выявление недостатков современных каталогов привело к осознанию библиотечными специалистами необходимости совершенствования библиографических сервисов и поисковых средств, а также адаптации их к желаниям и потребностям пользователей.
Создалась ситуация, при которой пользователи библиотек, войдя на библиотечный сайт, были вынуждены искать нужные документы, пользуясь целым рядом различных окон поиска:
• в электронном каталоге, раскрывающем в основном традиционный печатный фонд;
• в электронном каталоге электронной библиотеки (ЭБ); в некоторых организациях описания объектов ЭБ включили в единый электронный каталог библиотеки, обеспечив аналитическую роспись статей и частей документов;
• в окнах поиска во множестве лицензионных ресурсов;
• в глобальных поисковых сервисах интернета, через которые можно найти большое количество документов в свободном доступе.
Такая ситуация привела к значительному оттоку пользователей с библиотечных сайтов в сторону глобальных поисковых сервисов Google, Yandex и подобных, с тревогой отмеченному в ряде исследований [1, 2]. Для формирования единого поискового пространства для разнородных ресурсов библиотек в начале 2010-х годов были разработаны сервисы discovery (см., например, [3, 4]). В настоящее время они широко используются в библиотеках всего мира. Четыре наиболее известных коммерческих сервиса discovery Summon (ProQuest), EBSCO discovery service (Ebsco Industries), Primo (Ex Libris) и WorldCat Discovery Service (OCLC) используются в сотнях зарубежных библиотек и в десятках крупных библиотек России.
Discovery Service (DS) – система, обеспечивающая федеративный поиск по информационным ресурсам. Под федеративным поиском можно понимать одновременный автоматический поиск по нескольким информационным ресурсам (электронным каталогам, коллекциям электронных документов, хранящихся на серверах библиотеки, внешним библиографическим и полнотекстовым БД, доступ к которым обеспечивает библиотека) посредством единого поискового окна с последующим представлением единого упорядоченного результата поиска. При этом инструментом подобного поиска будут являться системы дискавери (DS).
Несомненным преимуществом использования подобных систем является то, что поиск проходит по отдельно выбранным, специально отобранным источникам информации, доступными через сайт библиотеки, а не по всей совокупности ресурсов сети Интернет.
После подключения библиотеки к подобному сервису, на ее сайте наряду с поиском по ЭК размещается поисковое окно, из которого сразу можно начать поиск по всем ресурсам библиотеки. Также данное окно может стать средством для быстрого доступа к ЭК. При этом пользователю при осуществлении поиска предоставляется возможность выбора конкретных баз данных. На странице с результатами поиска отображаются также ссылки на полные тексты (если они доступны), имеются инструменты для уточнения результатов запроса (например, по видам, предметной рубрике и т.д.).
Преимущества систем дискавери:
• простота и быстрота использования, экономия времени – единое поисковое окно для всех БД;
• сходство с популярными поисковыми сервисами;
• повышение эффективности поиска за счет доступа к большому кол-ву контента, недоступному при обращении к индексным поисковым механизмам;
• повышение релевантности и качества результатов поиска за счет поиска по заранее определенному пользователем множеству ресурсов;
• повышение эффективности использования ресурсов библиотеки (подписных баз данных)
Проблемы и недостатки:
• достаточно высокая стоимость подключения;
• недостаточно разработанный механизм распознавания дублетных записей в списке результатов поиска (крайне сложно распознать все повторы в целом массиве, не загружая полные тексты);
• сложность в ранжировании по релевантности;
• подключение ПО не исключает необходимости подписки организации на отдельные БД.
За несколько лет существования системы дискавери доказали свою необходимость и положительный эффект их внедрения.
Пример отечественной разработки: БИБЛИОПОИСК (https://bibliosearch.ru/)
БИБЛИОПОИСК – поисковый (дискавери) сервис «единого окна» для каталогов Вашей библиотеки, ЭБС и полнотекстовых баз данных. Современный и удобный поиск, максимальная релевантность, полнота охвата ресурсов. Эта система охватывает не только ресурсы библиотеки, но и ищет по открытым ресурсам сети: Киберленинка, ЛитРес, Библиотека НонФикшн, EastView, Гребенникон, Юрайт, ЭБ и ЭБД РГБ, НЭБ.РФ, Научный Архив, Книгафонд, IPRBooks (Библиокомплектатор), Консультант студента, Консультант врача, Центральная научная медицинская библиотека, БиблиоРоссика, «ИнтернетУрок», «Академия Арзамас», НЭДБ, репозитории НОРА, лекторий МФТИ…
Поиск ведется с учётом морфологии, поиск в полных текстах книг, журналов, диссертаций и авторефератов.