Основы теории информации
Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Федеральное агентство морского и речного транспорта
Федеральное государственное образовательное учреждение
высшего профессионального образования
«Морской государственный университет им. адм. Г.И. Невельского»
Кафедра лазерной физики
А.В. Шевцов
ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ
( курс лекций )
Учебное пособие
Владивосток
2010
УДК 519.92:621.313.684
Шевцов, А. В. Основы теории информации (курс лекций) : учебное пособие. – Владивосток : Мор. гос. ун-т, 2010. – 200 с.
В пособии рассмотрены основы теории информации. Подробно исследуются свойства основной меры информации, вопросы кодирования и декодирования. Рассматриваются различные типы источников и каналов передачи информации, в первую очередь дискретные каналы без памяти и гауссовские каналы, вопросы восприятия, передачи, обработки и представления информации. Для закрепления знаний пособие снабжено подбором упражнений и задач.
На основе излагаемого в пособии материала два года читался односеместровый курс (с практическими занятиями) для студентов специальности ИБТС морского физико-технического института МГУ им. адм. Г. И. Невельского.
Учебное пособие предназначено для этой специальности МФТИ и может быть полезным для студентов и преподавателей ряда технических специальностей ФЭИТ.
Табл. – 34; рис. – 8; библиогр. – 30 наим.
Р е ц е н з е н т ы:
В.В. Юдин, доктор физ.-мат. наук, профессор
кафедры физических основ технол. информац.
сред ИФИТ ДВГУ;
П.Н. Корнюшин, доктор физ.-мат. наук, зав.
кафедрой информационной безопасности
ИФИТ ДВГУ
© Шевцов А.В., 2010
© Морской государственный университет
им. адм. Г.И. Невельского, 2010
ПРЕДИСЛОВИЕ
В современной науке, технике и общественной жизни большую роль играет информация и связанные с ней операции: получение, передача, переработка, хранение информации и т.п. Значение информации сопоставимо, а возможно и превосходит значение другого важного фактора – энергии.
В связи с дальнейшим усложнением науки, техники, экономики и других отраслей будет всё больше возрастать значение правильного управления ими, а значит и значение информации.
Ответы на вопросы что такое информация, возможна ли теория информации, существует ли для информации какие-либо общие закономерности, не зависящие от конкретного содержания информации (которое может быть весьма различным), далеко не очевидны. Информация является для исследования более трудным понятием, чем, скажем, энергия, занимающая определённое, давно выясненное место в физике.
Информация имеет две стороны: количественную и качественную. Иногда важным является общее количество информации, а иногда – качественный вид сообщения, его конкретное содержание. Кроме того переработка информации из одного вида в другой является технически более сложной задачей, чем, скажем, превращение энергии из одной формы в другую. Всё это затрудняет разработку теории информации и её использование.
Из сказанного видно, насколько нелёгким делом было открытие закономерностей теории информации. Столь же нелёгким делом является выбор метода изложения этих закономерностей и, соответственно, выбор тех или иных книг и учебных пособий по теории информации.
При традиционном подходе теория информации излагается так, как её понимал К. Шеннон, связывавший свою теорию с кодированием информации для её передачи по каналам связи прежде всего, хотя и допускавший, что она, возможно, может найти применение и в других приложениях: (К. Шеннон. Математическая теория связи и другие работы, – в кн.:Работы по теории информации и кибернетики.– М.: ИЛ, 1963). Аналогичный подход к изложению материала используется в таких замечательных книгах и учебных пособиях как: С. Голдман. Теория информации.– М.: ИЛ, 1957; А. Файнстейн. Основы теории информации (М.: ИЛ, 1960); Р. М. Фано. Передача информации. Статистическая теория связи (М.: Мир, 1965); и ряде других, например: Колесник В. Д., Полтырев Г. Ш. Курс теории информации (М.: Наука, 1982), И. Чиссар, Я. Кёрнер Теория инфрмации. Теоремы кодирования для дискретных систем без памяти (М.: Мир, 1985), в которых впервые рассматриваются многотерминальные системы, т.е. системы с несколькими взаимодействующими каналами и источниками сообщений. Несколько в стороне от них стоит книга Р. Галагера Теория информации и надёжная связь (М.: Советское радио, 1974), где излагаемый материал базируется, с одной стороны, на стройных математических результатах, а с другой стороны, направлен на конкретные технические приложения. В качестве примера учебного пособия, где наряду с традиционным изложением основных положений теории информации большое внимание уделено также техническим средствам реализации этих положений, можно привести книгу Темников Ф. Е. и др. Теоретические основы информационной техники (М.: Энергия, 1971).
Другой подход к изложению теории информации связан с её применением не только в теории связи, но и в других отраслях. Однако теории, описывающей свойства информации в широком смысле этого слова, пока что нет. Но есть отдельные, весьма перспективные разработки. В этом смысле определённый интерес может представлять книга С. Кульбака Теория информации и статистика (М.: Наука, Гл. ред. физ.- мат. лит., 1967), а особенно книга Р. Л. Стратоновича Теория информации (М.: Сов. радио, 1975), где изложение ведётся на основе синтеза трех дисциплин: 1) статистической термодинамики как математической теории; 2) шенноновской теории информации; 3) теории оптимальных статистических решений (вместе с её многошаговыми разновидностями – оптимальной фильтрацией и динамическим программированием), как решение ряда последовательных стандартных вариационных задач. Глубокая связь не только статистической термодинамики, но и физики в целом прочерчена в книге Л. Бриллюэна Наука и теория информации (М.: Гос. издат. физ.-мат. лит., 1960). В книге В. В. Митюгова Физические основы теории информации (М.: Сов. радио, 1976) рассматриваются как принципиальные вопросы взаимосвязи теории информации с физикой, так и методы расчёта реальных систем связи в микроволновом и оптическом диапазонах. В частности, затронуты вопросы когерентной оптики и квантовой теории формирования изображений, где существенную роль играют квантовые эффекты и связанные с ними ограничения. В книге И. М. Когана Прикладная теория информации (М.: Радио и связь, 1981), рассматривается применение теоретико – информационных представлений в многочисленных областях (радиолокация, телевидение, системотехника, планирование эксперимента, биофизика, лингвистика, музыка и др.), выходящих за пределы традиционной для теории информации техники передачи сообщений.
Большое разноообразие монографий и учебных пособий по теории информации, различие в подходе к изложению материала и к целям его приложения, относительная их недоступность (последнее из перечисленных выше издано более 20 лет назад) вызвали необходимость написания данного учебного пособия. Оно основано на опыте чтения соответствующего односеместрового курса для студентов третьего курса специальности 075600 (ИБТС) Морского государственного университета им. адм. Г.И. Невельского. Предлагаемый курс лекций рассчитан на 34 – 36 лекционных часов, 17 –18 часов практических занятий и около 50 часов самостоятельной работы. При этом материал, отмеченный в оглавлении знаком (*) предназначен для самостоятельного изучения. Содержание пособия основано на книгах Р. Фано, Р. Галагера, Колесника В. Д. и Полтырева Г. Ш., И. Чиссара и Я. Кёрнера, с добавлениям некоторого материала из книг Р. Л. Стратоновича и Л. Бриллюэна.
Поскольку излагаемый материал весьма обширен, то там, где это возможно, математически строгие результаты теоретического характера заменены рассмотрением конкретных, но достаточно общих примеров, а некоторые теоремы даны без доказательств. Кроме того, при изложении основного материала сложные математические выводы и преобразования даются в тексте справочно (мелким шрифтом). Математическое доказательство основной теоремы Шеннона о кодировании приводится в приложении 1.
Задачи, упражнения также приведены в конце пособия, в приложении 2.
Введение
Теория информации или, точнее, информационные наука и техника должны рассматриваться как одна из основополагающих частей кибернетики. По отношению к кибернетике они занимают подчинённое положение, так как, кроме чисто информационных процессов (сбор, передача, переработка, хранение и представление информации), в кибернетике рассматриваются объекты, цели, общие технологические процессы, оптимизация управления, обратные связи и т. д.
Однако в ряду сравнительно новых, порождённых кибернетикой дисциплин, как-то: вычислительная техника, связь, автоматика и телемеханика, бионика и др., информационные наука и техника занимают одно из базовых положений, а в таких, как исследование операций, системотехника, административное управление, вообще доминируют. Это следует понимать так, что во всех этих дисциплинах теория и практика информации используются или могут быть использованы как одна из существенных частей, относящихся к информационным явлениям, наряду с рабочими операциями, вещественными и энергетическими явлениями и системами, вопросами надежности, организации, стратегии и т.п.
Следует различать информационные системы вообще и информационную технику. К информационной технике относятся средства, служащие для подготовки, передачи, переработки, хранения, представления и восприятия какой-либо информации, исходящей от человека, машины, природы, вообще от какого-либо объекта наблюдения и управления.
Информационные системы отличаются от других естественных или искусственных (технических) систем тем, что в них присутствуют органы и связи наблюдения и/или управления, процессы обращения информации, сигнальные формы отображения вещественных или энергетических явлений.
Строго говоря, информационные системы всегда бывают наложены на рабочие системы, но они могут быть представлены либо техникой, либо людьми. Например, информационная система старинного корабля состоит из людей (дозорные, сигнальщики, вестовые, боцманы, лоцманы), а современного корабля – из автоматических устройств передачи, обработки данных и управления.
Информация возникает тогда, когда устанавливаются некоторые общие свойства конкретных вещей и явлений, поэтому под информацией можно понимать выделенную сущность, характеристику этих вещей и явлений.
Слово «информация» по латыни означает сообщение, осведомление о чём-либо. Однако такое переводческое толкование, как и трактовки типа наиболее общей философской (информация есть отражение реального мира) или, наоборот, наиболее узкой практической (информация есть все сведения, являющиеся объектом хранения, передачи и преобразования), не могут служить определением понятия «информация».
Понятие информации связано с некоторыми моделями реальных вещей, отражающими их сущность в той степени, в какой это необходимо для практических целей, поэтому под информацией нужно понимать не сами предметы и процессы, а их существенные и представительные характеристик, выделенную сущность явлений материального мира; имеются в виду не сами предметы и процессы, а их отображения в виде чисел, формул, описаний, чертежей, символов, образов и т.п. абстрактных характеристик.
Сама по себе информация может быть отнесена к области абстрактных категорий, подобных, например, математическим формулам. Однако проявляется она всегда в материально-энергетической форме в виде сигналов. Методологическая схема образования сигнала показана на рис.В-1.
С передачей и обработкой информации связаны действия любого автоматического устройства, поведение живого существа, творческая деятельность человека, экономические и социальные процессы и преобразования в обществе и сама жизнь. В том числе, науку в целом можно рассматривать как созданную человеком сложную, развивающуюся информационную систему.
Физический Физическая
оригинал МАТЕМАТИЧЕСКИЕ МОДЕЛИ модель
Наблюдае- начальная квантован- кодирован- используемые мые явления информация ная инфор- ная инфор- сигналы
мация мация
Рис.В-1. Методологическая схема образования сигнала.
Как понятие энергии привело к единой и прогрессивной точке зрения на физические законы природы и техники, так и понятие информации выявляет качественные и количественные стороны сигнально – мыслительных и контрольно – управляющих процессов. Причём выявление и изучение наиболее общих законов получения и переработки информации – незаконченный процесс.
В основах теории информации рассматриваются наиболее общие вопросы, как-то: понятие информации; измерение информации; принципы кодирования и модуляции; теория восприятия, передачи и представления информации.
Рассмотрим восприятие и передачу информации, а также её использование с целью управления некоторым объектом.
Фазы обращения информации.
Рассмотрим фазы, через которые проходит информация в информационных системах. Поскольку материальным носителем информации является сигнал, то эти фазы связаны с процессами формирования, передачей, преобразования и использованием сигналов.
В о с п р и я т и е информации связано с опознанием, оценкой и формированием образа объекта. При этом необходимо отделить полезную информацию от шумов, что в некоторых случаях (радиосвязь, локация, астрономия и др.) связано со значительными трудностями. В фазу восприятия могут включатся операции подготовки информации: её нормализации, квантования, кодирования; модуляции сигналов и построения моделей. В таком случае, в результате восприятия получается сигнал в форме, удобной для передачи или обработки.
П е р е д а ч а информации состоит в переносе её на расстояние посредством сигналов различной физической природы соответственно по механическим, гидравлическим, пневматическим, акустическим, оптическим, электрическим или электромагнитным каналам. При этом прием информации на другой стороне канала имеет характер вторичного восприятия с характерными для него операциями борьбы с шумами.
О б р а б о т к а информации заключается в автоматизированном решении задач, связанных с преобразованием информации, независимо от их функционального назначения (тут и модели ситуаций, и принятие решений, и выработка управляющих воздействий, и т. п.). Обработка производится при помощи устройств или машин, осуществляющих аналоговые или цифровые преобразования поступающих величин и функций. Промежуточным этапом обработки может быть хранение в запоминающих устройствах различного типа. Извлечение информации из запоминающих устройств также имеет характер восприятия и связано с борьбой с шумами.
П р е д с т а в л е н и е информации требуется лишь при участии в информационном процессе человека. Оно заключается в демонстрации перед человеком с помощью устройств, способных воздействовать на его органы чувств, различных условных сигналов, содержащих качественные и количественные характеристики выходной информации.
Из устройств обработки информация может выводиться не только человеку, но и непосредственно воздействовать на объект управления.
В о з д е й с т в и е состоит в том, что сигналы несущие информацию, производят регулирующие, управляющие или защитные действия у потребителя информации. В частности, для замкнутых информационных систем, на самом объекте, вызывая в нём определённые изменения. В этом случае объект выступает и как источник и как потребитель информации.
В разомкнутых системах информация передаётся от источника к приёмнику или потребителю. Активное воздействие на отбираемую от источника информацию может оказывать либо сам источник, либо потребитель. Часть системы, оказывающую активное воздействие на её работу, называют субъектом, а пассивную часть – объектом. Как субъектом, так и объектом могут быть человек (Ч) или машина (автомат) (М). Возможные взаимоотношения между ними приведены на рис.В-2. Объект как источник информации не исчерпаем, но подавляющая часть потоков отображения его состояний рассеивается и лишь небольшая часть, отвечающая потребности и определяемая
Объект
Возможные отношения
М
М
Ч
Ч
Субъект
М
Ч
Ч
М
X
X Y
Рис. В-2 Обмен информацией в разомкнутой информационной системе.
Х – информация наблюдения; У – информация управления.
принятым в информационной системе языком, ответвляется к приёмнику в виде параметров наблюдения X или управления Y.
Виды информации и её структура
Теперь рассмотрим основные виды информации. Информацию можно различать:
– по областям знаний (техническая, экономическая, биологическая и др.);
− по физической природе восприятия (зрительная, звуковая, вкусовая и др.);
– по метрической природе (параметрическая, топологическая, абстрактная).
Последнюю классификацию рассмотрим подробнее, как наиболее пригодной для технических приложений.
К параметрической информации относятся наборы численных оценок каких – либо параметров (измеряемых величин), результаты количественных определений при исследовании, анализе, контроле и учёте; ею чаще всего пользуются в науке и технике для выражения результатов измерений.
К топологической – геометрические образы, карты местности, различные изображения и объёмные объекты; с её помощью удобно выражать образы и ситуации, подлежащие распознаванию.
К абстрактной – математические соотношения, обобщенные образы и понятия; её применяют в исследованиях на высоком теоретическом уровне, когда нужны отвлечения, обобщения и символизация.
В инженерной практике широкое распространение имеет параметрическая информация, которую можно свести к четырём основным формам: событию, величине, функции и комплексу
Двоичное событие А является первичным и неделимым элементом информации как выбор из утверждения или отрицания, истины или лжи, согласия или несогласия, наличия или отсутствия какого либо явления (например, выпуск годного или негодного изделия, попадания или непопадания в цель, наличие или отсутствие команды и т. д.). Двоичность события позволяет представить его условно в геометрической символике точкой и пробелом, в арифметической символике – единицей и нулём, в сигнальной символике – импульсом и паузой. С позиций теории множеств событие является категорией нулевой меры.
Величина Х есть упорядоченное в одном измерении (по шкале значений) множество событий, причём каждое из них отвечает принятию величиной какого – либо одного значения. Величина может быть дискретной или непрерывной; в первом случае множество событий счётно, во втором – несчётно. Геометрически величину можно представить линией.
Функция X(T), X(N), X2(X1) есть соответствие между величиной и временем Т, пространством N или другой величиной. В этом смысле функцию можно трактовать как двумерное поле событий.
Полный комплекс X(T,N) информации есть соответствие между величиной, с одной стороны, временем и пространством – с другой. Таким образом, полный комплекс информации есть трёхмерная область событий.
Так как информация может быть представлена моделями с различной размерностью, то отвлекаясь от конкретного вида координат (параметр Х, время Т, пространство N) и вводя обобщённую координату информации Ф, получаем следующую классификацию:
Ф0, Ф1 , Ф2 , Ф3 , . . . , Фn , где Ф0 – нульмерная информация (событие); Ф1 – одномерная информация (величина); Ф2 – двумерная информация (функция); Ф3 – трёхмерная информация (комплекс); Фn – n-мерная информация (n-мерное пространство), например, Фn(Х1, Х2, …, Хn-2, N, T).
Чаще всего параметрическая информация сообщает о различных физических величинах (параметрах), оцениваемых по индивидуальным шкалам измерения или приведённых к одной общей шкале. Информация об одной скалярной величине одномерна, а информация о функциональной зависимости между двумя величинами, например Х2= f (Х1) занимает два измерения в координатах Х1 и Х2. Более сложные соотношения между многими величинами представляются n -мерными категориями или образами, поэтому информация об изменении параметров во времени занимает от двух до n измерений в зависимости от количества отдельных параметров.
Параметрические пространства могут содержать информацию о распределении некоторых параметров по линии, плоскости или объёму (в частности, одно-, двух- или трёхмерные физические поля), то есть при описании местоположения событий. В этом случае геометрические понятия линия, плоскость, объём представляют собой информационные категории.
Параметрические пространства, отнесённые к определённому времени, могут содержать информацию об изменении множества величин, упорядоченных относительно того или иного количества пространственных координат, приведённых к одной общей унифицированной шкале измерения (например, изменение физических полей во времени), то есть являться описанием некоторых событий. При этом геометрические пространства, отнесённые к этому же времени, также имеют информационный смысл.
Информация может претерпевать различные структурные преобразования, последовательность которых может быть различной в различных информационных системах. Полученные в процессе преобразований структуры носят абстрактный характер и не соответствуют строго тем или иным этапам обработки информации в технических средствах информационных систем.
Натуральная информация, которую можно условно представить как совокупности величин Х, моментов времени Т и точек пространства N в виде множеств{Х},{Т} и {N}, отражает реальное существование объектов. Она имеет аналоговую форму, засорена шумами, неоптимальная по диапазонам и началом отсчётов значений параметров, что обусловлено физическими свойствами наблюдаемого объекта.
Нормализованная информация отличается от натуральной тем, что в ней каждое множество {Х},{Т},{N} уже приведено к одному масштабу, диапазону, началу отсчёта и другим общим унифицированным характеристикам. Нормализованную информацию можно трактовать как результат воздействия на натуральную информацию операторов: масштабного M, диапазонного D и локализационного L .
Комплексированная информация образуется в результате приведения всей информации к полному комплексу, т.е. к трёхмерной системе XTN, где X – обощённая координата значений параметров или унифицированная шкала каких – либо оценок; Т – обобщённая координата времени; N – обобщённая координата пространства источников информации. Комплексированная информация представляет собой связанное и координированное множество {X,T,N}.
Изменение количества измерений структуры и расположения элементов в информационных комплексов приводит к форме декомпонированной информации (XT, XN, NT и т. п.). Декомпонированная информация декоррелирована, в ней нарушены или удлинены связи между отдельными элементами информации.
В генерализованной информации исключены второстепенные её части, данные обобщены, и укрупнены. Генерализация может охватывать как совокупность параметров, так и моменты времени, диапазоны измерения и степень подробности их отображения. Формула GA {X, T, N} показывает, что производится генерализация G по алгоритму А комплекса { X, T, N }.
Дискретная (квантованная) информация получается из исходной непрерывной информации путём её дискретизации и совпадает с ней по физической размерности. Дискретизация может быть осуществлена по осям X, T и N параметрического комплекса. Дискретная информация экономична в реализациях и удобна при обработке. На основе теории дискретных отсчётов можно выбрать оптимальные интервалы дискретизации.
Безразмерная информация универсальна своей безразмерной числовой формой. Числа, отображающие безразмерную информацию, получают в результате дискретизации информационного комплекса и они соответствуют количеству информационных элементов (квантов), т.е. равно отношению любой координаты к её интервалу дискретности:
(1.1-1)
Кодированная информация имеет форму совокупности чисел, или цифровую форму, основанную на применении какой либо формы счисления или кодирования.
Первичная информация формируется на основе сигналов, выделяемы из множества других, протекающих на объектах наблюдения и управления. Дальнейшая обработка этих сигналов и содержащейся в них информации можно описать следующей схемой:
• первая фаза – структурное устранение избыточности то есть структурное обогащение информации;
• вторая фаза – устранение статистической избыточности путём учёта вероятностных характеристик информации или статистическое обогащение информации;
• третья фаза – выделение смыслового содержания, т. е. Семантическое обогащение информации;
• четвёртая фаза – формирование решений и действий с последующей выдачей единичных командных сигналов, возможна, хотя и не является обязательной.
Плотности потоков информации, при прохождении перечисленных этапов устранения избыточности, последовательно уменьшаются.
Лекция 1. Измерение информации
1.1 Информационные меры
Важнейшим вопросом теории информации является установление меры количества и качества информации.
Информационные меры отвечают трём основным направлениям в теории информации: структурному, статистическому и семантическому.
Структурная теория рассматривает дискретное строение массивов информации и их измерение простым подсчётом информационных элементов (квантов) или комбинаторным методом, предполагающим простейшее кодирование массивов информации. Область применения структурной теории – оценка возможностей аппаратуры информационных систем (каналов связи, запоминающих и регистрирующих устройств) вне зависимости от условий их применения.
Статистическая теория оперирует понятием энтропии как меры неопределённости, учитывающей вероятность появления, а следовательно, и информативность тех или иных сообщений. Область применения статистической теории – оценка информационных систем в конкретных применениях, например при передаче по системе связи информации с определёнными статистическими характеристиками.
Семантическая теория учитывает целесообразность, ценность, полезность или существенность информации. Семантическая теория прилагается к оценке эффективности логического опыта.
Кроме того, используются также более общие подходы к оценке информации с учётом разнообразных свойств источников, каналов и приёмников информации.
Переходя к конкретным мерам информации, следует указать, что источники информации и создаваемые ими сообщения разделяются на дискретные и непрерывные.
Дискретный источник за конечное время создаёт конечное множество сообщений Дискретные сообщения слагаются из счётного множества элементов, создаваемых источником последовательно во времени. Набор элементов называется алфавитом источника, а элементы – буквами. Понятие буквы в данном случае шире, чем в письменности; оно включает цифры и другие знаки. Число букв в алфавите называется объёмом алфавита. Типичными дискретными сообщениями являются: текст, записанный с помощью какого-либо алфавита; последовательность чисел, представленных знаками.
Непрерывные сообщения отображаются какой либо физической величиной, изменяющейся в заданном интервале времени. Получение конечного множества сообщений за конечный промежуток времени в данном случае достигается путём дискретизации (во времени) и квантования (по уровню).
1.2 Структурные меры информации
При использовании структурных мер учитывается только дискретное строение данного информационного комплекса, в особенности количество содержащихся в нём информационных элементов, связей между ними и комбинаций из них. Под информационными элементами понимаются неделимые части – кванты – информации в дискретных моделях реальных информационных комплексов, а также элементы алфавитов в числовых системах.
В структурной теории различаются геометрическая, комбинаторная и аддитивная меры информации, причём наибольшее распространение получила двоичная аддитивная мера (мера Хартли), измеряющая информацию в двоичных единицах – битах.
Геометрическая мера.
Определение количества информации геометрическим методом сводится к измерению длины, площади или объёма геометрической модели данного информационного комплекса в количестве дискретных единиц – ранее определённых квантов, т. е. определяется потенциальное или, иными словами, максимально возможное количество информации в заданных структурных габаритах. Это количество будем называть информационной ёмкостью исследуемой части информационной системы, причём информационная ёмкость всей системы вычисляется как сумма дискретных значений по всем измерениям, т. е она может быть представлена числом, показывающим, какое количество квантов содержится в полном массиве информации.
Пусть информация отражается полным комплексом XTN. Если дискретные отсчёты осуществляются по параметрам Х, Т и N соответственно через интервалы ΔХ, ΔТ и ΔN , то непрерывные параметры (координаты) распадаются на элементы (кванты), количество которых определяется соотношениями (1.1-1). Тогда количество информации в полном комплексе XTN, определённое геометрическим методом, равно (в квантах)
М = qХ · qТ · qN . (1.2-1)
Может иметь место неравномерная (по параметрам Х и N ) и нестационарная (изменяющая свой характер во времени Т ) дискретизация. Тогда количество информации определяется по более сложным формулам, вытекающим из переменных характеристик дискретизации.
Комбинаторная мера.
К комбинаторной мере целесообразно прибегать тогда, когда требуется оценить возможность передачи информации при помощи различных комбинаций информационных элементов, что является одной из форм кодирования информации.
Количество информации в комбинаторной мере вычисляется как количество комбинаций элементов. Таким образом, оценке подвергается комбинаторное свойство потенциального структурного разнообразия информационных комплексов.
Комбинирование возможно в комплексах с неодинаковыми элементами, переменными связями или разнообразными позициями. Элементы неодинаковы, если они отличаются один от другого любым признаком – размером, формой, цветом и т. п.
Одинаковые по всем своим признакам элементы могут стать неодинаковыми, если учесть их положение, позицию. Тогда местоположение элементов оказывает влияние на целое (позиционные системы счисления, формирование образов). Например, в позиционной системе представления двоичных чисел комбинации 00001 и 10000 отличаются лишь положением единицы, но при этом первая представляет число 1, а вторая – 16. Ещё более выразительны примеры переноса точки при образовании или преобразовании фигур и изображений, когда перенос, добавление или удаление одной точки коренным образом меняет изображение и его смысловое содержание.
В комбинаторике рассматриваются различные обединения элементов.
Сочетания из n элементов по m различаются составом элементов; их возможное число равно:
(1.2-2)
Сочетания с повторениями также различаются составом элементов, но элементы в них могу повторяться до m раз. Число различных сочетаний с повторениями из n элементов по m равно:
(1.2-3)
Перестановки п элементов различаются их порядком; число возможных перестановок равно:
P = 1·2·3·…·n! . (1.2-4)
Перестановка с повторениями элементов, причём один из элементов повторяется α раз, другой – β раз, наконец, последний – γ раз, характеризуется возможным числом
(1.2-5)
Размещения из h элементов по k элементов различаются и составом элементов и их порядком. Возможное число таких размещений
(1.2-6)
Возможное число размещений с повторениями по k из h элементов
Rповт. = hk. (1.2-7)
При применении комбинаторной меры возможное количество информации J совпадает с числом возможных соединений, определяемым с помощью соотношений (1.2-2) – (1.2-7). Теперь определение количества информации связан не с простым подсчётом квантов, а в определении количества возможных или действительно осуществлённых комбинаций, т. е. оценке структурного разнообразия.
Количество информации при том же количестве элементов теперь многократно увеличивается. Конечно, не всегда все возможные комбинации составляют действительные степени свободы данной системы и тогда расчёт ведётся по реализуемым комбинациям.
Аддитивная мера (Хартли)
В теории информации важную роль играет комбинаторика чисел и кодов.
Введём понятия глубины h и длины l числа.
Глубиной h числа называется количество различных элементов (знаков), содержащееся в принятом алфавите. Глубина числа соответствует основанию системы счисления и кодирования. Один полный алфавит занимает одно числовое гнездо, глубина которого также равна h. В каждый данный момент реализуется только один какой-либо знак из h возможных.
Длиной l числа называется количество числовых гнёзд, т. е. количество повторений алфавита, необходимых и достаточных для представления чисел нужной величины. Длина числа соответствует разрядности системы счисления и кодирования. Один набор из l гнёзд-алфавитов, способный представлять и хранить одно полное число длиной l называют также числовой грядой.
Некоторое количество чисел N называется числовым полем.
При глубине h и длине l количество чисел, которое можно представить с помощью числовой гряды выражается формулой
Q = hl , (1.2-8)
т. е. ёмкость гряды экспоненциально зависит от длины числа l. Вследствие этого число Q не является удобной мерой для оценки информационной ёмкости. Поэтому Хартли (Л. Хартли – один из основоположников теории связи) ввёл аддитивную двоичную логарифмическую меру для вычисления количества информации I:
I = log2 Q = log2 hl = l·log2 h. (1.2-9)
Основание логарифма 2 в этой формуле задаёт двоичную единицу количества информации – бит. Изменение основания логарифма меняет и единицу измерения количества информации – непер при использовании натуральных и хартли – десятичных логарифмов.
Аддитивная мера удобна тем, что она обеспечивает возможность сложения и пропорциональность количества информации к длине числа l , т. е. количеству числовых гнёзд.
При наличии нескольких источников информации общее количество информации, которое можно получить от всех источников, вместе взятых,
I(Q1,Q2,…,Qk ) = I(Q1) + I(Q2) + … + I(Qk ). (1.2-10)
1.3 Статистические меры информации
Вероятность и информация. Основные определения и понятия.
При вероятностном подходе информация рассматривается как сообщение об исходе случайных событий, реализации случайных величин и функций, а количество информации ставится в зависимость от априорных вероятностей этих событий, величин, функций.
События можно рассматривать как возможные исходы некоторого опыта, причём все исходы составляют ансамбль, или полную группу событий. Последняя характеризуется тем, что сумма вероятностей событий в ней равна единице:
p1 + p2 + . . . + pi + . . . + pk = 1.
Опытом может быть и изменение случайной величины Х, принимающей различные значения. Тогда каждое определяемое значение имеет смысл исхода, или элементарного события. При этом множество состояний (реализаций) {x1, x2 ,. . ., xi ,. . .} дискретной случайной величины Х конечно или счётно, а непрерывной – несчётно. Например, это могут быть состояния какой-либо физической или технической системы.
В простейшем случае события {X = xi }, i = 1,2,3, . . . , несовместимы. Они составляют полную группу, в которой обязательно реализуется одно из событий, т. е. имеет место условие:
для дискретных событий (k может быть бесконечным);
для непрерывных событий, где р(х) – плотность вероятности этой величины.
В общем случае вероятности не остаются постоянными. Они могут изменяться во времени, в зависимости от условий и обстоятельств. Тогда и статистические характеристики (среднее значение, дисперсия и т. д.) становятся переменными величинами. Процессы, описываемые этими величинами, называются нестационарными в статистическом смысле.
Рассмотрим определение меры информации с абстрактной точки зрения, т. е. забудем на время о сообщениях символах и т. п. Случайные события X, Y и т. д. будем рассматривать как некие абстрактные пространства, а их реализации – как точки этих пространств. Ограничимся пока, для простоты, рассмотрением дискретных пространств, т.е. пространств, состоящих из точек, которые могут быть упорядочены в простую последовательность x1, x2, x3, . . .
Рассмотрим два дискретных пространства X и Y, и будем обозначать через xk точки пространства X и через yi точки пространства Y. Произведение пространств XY определяется как пространство, такое, что одна и только одна его точка соответствует каждой паре точек (х,у), одна из которых принадлежит пространству Х, а другая – пространству Y. Таким образом, пространства X и Y являются подпространствами пространства XY, а точки этих пространств могут рассматриваться как координаты точек пространства XY.
Ансамбль Х порождается заданием на пространстве X распределения вероятностей P (x), приписывающего вероятность P (xk) каждой точке xk пространства. Ансамбль Y или любой другой ансамбль может быть порождён аналогичным образом. Так ансамбль XY порождается заданием совместного распределения вероятностей P(х,y) на произведении пространств.
Распределения вероятностей Р(х) и Р(у) выражаются через Р(х,у) следующим образом:
(1.3-1)
где суммирование производится по всему пространству Х или или Y , как это указано в формулах. Условные распределения вероятностей Р(у/х) и Р(х/у) определяются как
(1.3-2)
Ещё раз отметим, что сумма вероятностей, приписанных всем точкам любого ансамбля, должна равняться единице. В частности,
Следует уточнить, что все вышеприведённые и последующие формулы следует понимать таким образом:
, и т. д.
Подобным же образом можно определить произведение большего числа пространств и связанных сними вероятностей. Например, рассмотрим третье дискретное пространство Z с точками zj и произведение пространств XYZ , в котором каждая точка изображает некоторую тройку точек xyz. Тогда, если задать в этом произведении распределение вероятностей P(x,y,z), то по определению будем иметь
(1.3-3)
Так, например, P(xk ,yi) равно сумме вероятностей, приписанных точкам, расположенным на прямой, параллельной оси z, образованный пересечением плоскостей x xk и y yi . Очевидно
(1.3-4)
т. е. P(xk) есть сумма вероятностей, приписанных точкам плоскости x xk . Аналогичные выражения могут быть выписаны для P(y) и P(z).
Условные вероятности определяются как соответствующие отношения, например:
a) b) (1.3-5)
Аналогично определяются другие условные распределения вероятностей.
Если условное распределение вероятностей P(x/yz) не зависит от пары (y,z), задающей условие, т. е.
P(x/yz) = P(x) (1.3-6)
для всех точек произведения пространств XYZ, то говорят, что ансамбль X статистически не зависит от произведения ансамблей YZ. В этом случае
P(x,y,z) = P(x)·P(y,z) (1.3-7)
Но в этом случае, в соответствии с (1.3-5 b)
P(y,z/x) = P(y,z), (1.3-8)
так что ансамбль YZ также не зависит от ансамбля X, т. е. два ансамбля статистически независимы. Обобщение этого определения статистической независимости на другие случаи очевидно.
Следует, однако, отметить тот факт, что из статистической независимости ансамбля X от ансамбля Y и от ансамбля Z не следует статистическая независимость ансамбля X от произведения ансамблей YZ. Иначе говоря, из пары соотношений
P(x,y) = P(x)· P(y); P(x,z) = P(x)·P(z)
не следует обязательно
P(x,y,z) = P(x)·P(y,z).
Взаимная информация.
Теперь можно перейти к вопросу измерения количества информации. Трактуя точки xk , yi , zj ансамблей X ,Y, Z как некие события, введём следующее определение.
Количество информации, содержащееся в событии yi относительно появления события xk , определяется как
(1.3-9)
Основание логарифмов, используемых в этом определении, фиксирует величину единицы измерения информации: чаще всего применяется наименование «бит» (binary digit – двоичная цифра) при использовании основания 2; наименование «нат» (natural unit – натуральная единица) получается при использовании основания e; наименование «хартли» (в честь Л. Хартли) получается при использовании основания 10.
Определённая (1.3-9) величина обладает очень важным свойством симметрии по отношению к xk и yi. Действительно, умножая числитель и знаменатель дроби под логарифмом на P(yi), получаем
(1.3-10)
Отсюда немедленно следует
I(xk ; yi) = I( yi ; xk), (1.3-11)
т. е. информация, содержащаяся в yi относительно xk, равна информации, содержащейся в xk относительно yi . Поэтому введённую величину называют взаимной информацией между xk и yi.
Правая часть соотношения (1.3-10) позволяет интерпретировать взаимную информацию как меру статистической связи между xk и yi. Действительно, она равна нулю, когда два рассматриваемых события статистически независимы; в этом случае
P(xk ,yi) = P(xk)· P(yi).
Она положительна, когда вероятность появления одного из этих событий, если известно, что уже произошло другое (апостериорная вероятность), больше безусловной вероятности этого события, и наоборот, отрицательна, если апостериорная вероятность одного из этих событий меньше безусловной вероятности этого события.
Рассмотрим теперь произведение ансамблей XYZ, и пусть некоторая точка (xk , yi , zj) появляется с вероятностью P (xk, yi , zj).
Взаимная информация между xk и yi при заданном zj , в соответствии с выражениями (1.3-9) и (1.3-10), определяется как
(1.3-12)
Данное соотношение легко обобщается на случай, когда взаимная информация вычисляется при условии, что задано несколько событий.
Свойство аддитивности количества информации
Справедливы следующие соотношения:
I(xk ; yi · zj) = I(xk ; yi) + I(xk ; zj / yi) = I(xk ; zj) + I(xk ; yi / zj) =
½ [I(xk ; yi) + I(xk ; zj) + I(xk ; zj / yi) + I(xk ; yi / zj)], (1.3-13)
где последнее соотношение симметрично относительно , yi и zj .
Эти соотношения можно легко доказать самостоятельно, используя определение взаимной информации и свойства вероятностей.
Изменяя порядок символов в первом из приведённой цепочки равенстве, получаем
I( yi · zj ; xk ) = I( yi ; xk ) + I( zj ; xk / yi). (1.3-14)
Приведённые выражения позволяют с помощью ряда последовательных шагов разложить взаимную информацию между элементами произвольных подансамблей произведения ансамблей в сумму взаимных информаций между элементарными ансамблями, образующими это произведение.
Количество собственной информации.
Снова рассмотрим произведение ансамблей XY, и пусть пара xk · yi – точка этого ансамбля. Так как P(xk /yi) ≤ 1 и P(yi /xk) ≤ 1, то взаимная информация между xk и yi
удовлетворяет двум неравенствам
I(xk ; yi) ≤ log 1/ P(xk) ≡ – log P(xk) ≡ I(xk); (1.3-15a)
I(xk ; yi) ≤ log 1/ P(yi) ≡ – log P(yi) ≡ I(yi), (1.3-15b)
причём знак равенства достигается лишь при равенстве единице соответствующей условной вероятности.
Величины I(xk) и I(yi) называются количеством собственной информации в xk и yi , соответственно.
Интерпретация количества собственной информации зависит от роли, которую играют рассматриваемые события или символы.
Аналогично на произведении XYZ ансамблей вводятся условные собственные информации:
I(xk ;yi /zj) (1.3-16)
Очевидно, условная собственная информация события или символа может быть интерпретирована либо как количество собственной информации об этом событии, которое должно иметься при указанных условиях, либо как максимальное количество взаимной информации, которое способно доставить рассматриваемое событие при тех же заданных условиях.
С помощью соотношений (1.3-8), (1.3-9), (1.3-15) и (1.3-16) легко получить следующие соотношения:
I(xk ;yi) = I(xk) – I(xk /yi) = I(yi) – I(yi /xk), (1.3-17)
I(xk ;yi) = I(xk) + I(yi) – I(xk · yi), (1.3-18)
или наоборот
I(xk · yi) = I(xk) + I(yi) – I(xk ;yi) , (1.3-19)
где
I(xk · yi) ≡ – log P(xk ,yi) (1.3-20)
– собственная информация в точке (xk ,yi) произведения ансамблей XY.
Равенство (1.3-19) показывает, что информация о паре xk · yi равна сумме количества информации, требуемой для определения xk и yi независимо друг от друга, минус количество информации об, например, yi, содержащейся в xk (или наоборот).
Информация как случайная величина.
Введённые меры информации должны рассматриваться как случайные величины в том смысле, что каждая из них принимает некоторое значение для любой точки того или иного вероятностного ансамбля, т. е. представляет собой некоторую величину, связанную со случайным событием.
Таким образом для любого ансамбля U = {u} помимо вероятностной меры P(u) можно ввести в рассмотрение распределение вероятностей собственной информации I(u) в u:
P(I) Pr ( I(u) = I ) , (1.3-21)
Или функцию распределения для непрерывной случайной величины I(u) (если рассматривать непрерывный ансамбль U )
(1.3-22)
где плотность распределения вероятности p(x)для непрерывных ансамблей будет определена далее. Формула (1.3-22) применима и для дискретного случая, если плотность p(x) определить подобно δ – функции:
(1.3-23)
Тогда дискретное распределение вероятностей P(I) задаётся выражением:
(1.3-24)
где ε – произвольно малое положительное число (меньшее, чем наименьшая разность между возможными значениями I ).
Любая случайная величина полностью характеризуется своей функцией распределения, либо соответствующей характеристической функцией, либо полными наборами моментов или семиинвариантов (кумулянтов). Так как характеристическая функция может быть представлена в виде степенного ряда Маклорена по моментам (или логарифм этой функции – в виде аналогичного ряда по семиинвариантам), а наибольший вклад такой ряд вносят первые слагаемые, то наиболее информативными являются моменты или кумулянты наиболее низкого порядка. Чаще всего достаточным является рассмотрение математического ожидания, дисперсии и ковариации (для векторных случайных величин) или ковариационной функции (для случайных процессов).
Поэтому рассмотрим математическое ожидание или среднее значение случайной величины I(u):
(1.3-25)
где плотность распределения p(I) задаётся соотношениями (1.3-23) и (1.3-24). Таким образом, для среднего I(u) по ансамблю U будем использовать обозначение I(U).
Другой полезной характеристикой случайной величины I(u) является её дисперсия:
(1.3-26)
Если рассмотренный выше ансамбль U представляет собой какой либо из элементарных ансамблей X или Y, то I(U) следует понимать как среднюю собственную информацию I(X) или I(Y), а если понимать его как произведение ансамблей U= XY, то следует полагать u =(x,y); I = I(x,y); P(u) = P(x,y) и M[I(x,y)] I(X,Y) – среднее значение взаимной информации по произведению ансамблей.
В дальнейшем будут также использоваться условные распределения вероятностей вида
P(Iyi) Pr [I(x; yi) = I], (1.3-27)
где yi – некоторая точка ансамбля . Соответствующее условное математическое ожидание равно
(1.3-28)
Таким образом, I(X; yi)представляет собой среднее количество информации, содержащееся в yi относительно любого события из ансамбля X. Эта величина всегда неотрицательна, т. е. справедлива следующая
Т е о р е м а 1.3-1. Для заданного произведения ансамблей XY условное среднее значение взаимной информации I(X; yi) удовлетворяет неравенству
I(X; yi) 0, (1.3-29)
в котором знак равенства имеет место тогда и только тогда, когда
P(xyi) =P(x), (1.3-30)
т. е. когда х статистически не зависит от yi .
Д о к а з а т е л ь с т в о. Эту теорему можно доказать с помощью неравенства
ln w ≤ w – 1, (1.3-31)
которое следует из того факта, что линия u ln w касается прямой u w – 1 в точке w 1 и её наклон является монотонно убывающей функцией w.
Из равенств (1.3-28) и (1.3-9) следует
(1.3-32)
Тогда, используя (1.3-31), получаем
(1.3-33)
Знак равенства имеет место тогда и только тогда, когда переменная w в выражении (1.3-31) равна 1, т. е. когда удовлетворяется равенство (1.3-30).
Ч. Т. Д.
В силу свойств симметрии взаимной информации из неравенства (1.3-29) следует, что
(1.3-34)
Рассмотрим далее среднее значение взаимной информации, равное по определению
(1.3-35)
причём неотрицательность этой величины немедленно следует из (1.3-34). Основные свойства этой и других введённых величин будут получены ниже, после рассмотрения и изучения основных свойств ещё одной важной меры, используемой в теории информации наряду с количеством информации.
Энтропия.
Неопределённость каждой ситуации характеризуется величиной, называемой энтропией. Понятие энтропии (от греческого эн-тропе – обращение) распространилось на ряд областей знания.
Энтропия в термодинамике означает вероятность теплового состояния вещества, в математике – степень неопределённости ситуации или задачи, в информатике она характеризует способность источника отдавать информацию. Все эти понятия родственны между собой и в общем отображают степени богатства и неожиданности состояний.
Согласно второму закону термодинамики (по Больцману) энтропия замкнутой физической системы выражается как
(1.3-36)
где общее число молекул системы; ni – количество молекул в i-й фазовой ячейке, т. е. со скоростями от vi до vi + Δvi и с потенциальной энергией от εi до εi+Δ εi; частота ni /N ≈ pi – вероятности фазовых состояний молекул.
Заменяя натуральный логарифм на логарифм с произвольным основанием (это лишь добавит постоянный множитель log e , т. е. изменит единицу измерения) и сравнивая с выражением (1.3-25) для средней собственной информации получаем
(1.3-37)
Следовательно, собственная информация события (сообщения) может быть интерпретирована, как количество информации, требуемое для его однозначного определения, т. е как среднее количество информации необходимое для выделения любого события (сообщения) из ансамбля X.
Выражение (1.3-37) является основным; оно было использовано Шенноном в качестве отправного пункта в его первоначальном изложении теории. Так как в теории связи в качестве случайных величин выступают сообщения или символы, то величину H(X) можно рассматривать как меру «неопределённости» сообщения до того, как оно было принято. Таким образом, H(X) и I(X) служат для обозначения одной и той же величины. На самом деле связь между средним значением информации и энтропией оказывается более глубокой, чем только простая математическая аналогия. Так при обсуждении соотношения между информацией и энтропией в физических системах можно привести примеры, когда использование некоторых сведений о микросостоянии физической системы приводит к уменьшению её энтропии. Однако во всех этих случаях можно показать, что возможное уменьшение энтропии в «среднем» не может быть больше количества информации о состоянии системы, измеренного в соответствующих единицах, а физический процесс получения таких сведений приводит к возрастанию энтропии, не меньшему среднего количества полученной информации. Таким образом, как и следовало ожидать, второй закон термодинамики не нарушается при таких процессах.
Энтропия H(X) неотрицательна, поскольку неотрицательна I(X). Так как произведение P(x)·log P(x) обращается в ноль только при P(x) = 0 или P(x) = 1, то H(X) обращается в нуль тогда и только тогда, когда P(x) = 1 в некоторой точке xK . Такая ситуация возникает, например, при передаче одного только сообщения. При этом о нём не поступает никакой информации, т. к. оно полностью определено с самого начала.
Если пространство X интерпретировать как множество символов, используемых для кодирования, то собственная информация в некотором символе равна количеству информации, которое этот символ может содержать о сообщении на входе кодера. Таким образом, энтропия ансамбля символов равна количеству информации, которое в среднем может содержать какой либо символ, и как таковая она является мерой эффективности использования различных символов. В связи с этим особенно важным является следующее свойство H(X).
Т е о р е м а 1.3-2. Энтропия H(X) удовлетворяет неравенству
H(X) log , (1.3-38)
где M – число точек в пространстве X. Знак равенства имеет место тогда и только тогда, когда P(x) равна одному и тому же значению 1M для всех точек пространства X.
Д о к а з а т е л ь с т в о. Эту теорему также можно доказать с помощью неравенства (1.3-31). Рассмотрим разность
H(x) log M =
Подставляя правую часть неравенства (1.3-31) в каждый член правой части приведённой формулы, получаем
H(x) log M .
Знак равенства здесь достигается тогда и только тогда, когда
w = 1M·P(x),
поскольку при этом значении w имеет место знак равенства в (1.3-31).
Ч. Т. Д.
В частности, при M = 2 получаем H(X)= – [p · log p + (1 – p)·log (1 – p)], где p – вероятность одной из двух точек пространства. Легко показать, что max H(X) = log 2 (т. е. равен 1, если основанием логарифма служит 2) достигается при p = 1 – p = ½ = 0,5. Кривая зависимости H(X) от p симметрична относительно этого значения p и достигает нулевых значений на концах интервала, т.е. при р = 0 и p =1.
Основной смысл свойства H(X), выраженного формулой (1.3-38) может быть сформулирован так: для любого заданного алфавита символов количество информации, которое может в среднем содержаться в одном символе, достигает максимума, когда все символы используются с равными вероятностями. Это максимальное значение будем называть информационной пропускной способностью, или, короче, пропускной способностью алфавита; она измеряется логарифмом числа символов в алфавите и совпадает с аддитивной мерой Хартли при l = 1, h = M (это соответствует приведению информации к одному гнезду с алфавитом в h знаков). Совпадение оценок количества информации по Шеннону и Хартли свидетельствует о полном использовании информационной ёмкости системы.
Рассмотрим теперь произведение ансамблей XY. Среднее значение условной собственной информации
(1.3-39)
где суммирование ведётся по всем точкам произведения пространств XY. Эту величину называют условной энтропией Y при заданном X.
Энтропия
(1.3-40)
произведения ансамблей XY связана с H(X) и H(Y/X) соотношением
H(XY) = H(X) + H(Y/X). (1.3-41)
Это соотношение получается усреднением выражения
I(x·y) = I(x) + I(y/x) , (1.3-42)
следующего из (1.3-19), по ансамблю XY.
Т е о р е м а 1.3-3. Для заданного произведения ансамблей XY условная энтропия H(Y/X) удовлетворяет неравенству
H(Y|X) ≤ H(Y), (1.3-43)
где знак равенства достигается тогда и только тогда, когда y статистически не зависит от x, т. е. когда P(y/x) = P(y).
Д о к а з а т е л ь с т в о. Рассмотрим разность
H(Y|X) – H(Y) =
где использовано неравенство (1.3-31). Знак равенства будет иметь место тогда и только тогда, когда w = P(y) ⁄ P(y/x) = 1, так как при этом выполняется равенство в (1.3-31).
Ч. Т. Д.
Т е о р е м а 1.3-4. Для заданного произведения ансамблей XYZ условные энтропии H(Z|XY) и H(Z|Y) удовлетворяют неравенству
H(Z|XY) ≤ H(Z|XY), (1.3-44)
в котором знак равенства имеет место тогда и только тогда, когда z статистически не зависит от x при любом заданном y, т. е. когда P(z/yx)=P(z/y).
Д о к а з а т е л ь с т в о. Аналогично теореме 1.3-3.
Эти теоремы весьма важны в связи с кодированием сообщений. Если рассматривать x, y и z как последовательные символы кодового слова, то среднее количество информации, которое может содержаться в z , не может увеличится, если сделать z статистически зависимым от предыдущих символов, т. е. если сделать условную вероятность P(z /yx) отличной от P(z). В частности, пропускная способность данного кодового алфавита не может увеличится за счёт введения какой-либо зависимости между последовательными символами. Отсюда следует, что число символов, необходимых в среднем для идентификации сообщения из данного ансамбля, не может быть меньше, чем отношение энтропии ансамбля сообщений к пропускной способности используемого алфавита. В частном случае двоичных кодовых слов энтропия ансамбля сообщений образует нижнюю границу для среднего числа двоичных символов в кодовом слове.
В дальнейшем будет показано, что к этой нижней границе можно приблизится как угодно точно, рассматривая операции над ансамблями, образованными достаточно длинными последовательностями независимых сообщений.
Вернёмся снова к величине средней взаимной информации I(X;Y), определённой формулой(1.3-35). Её основные свойства можно получить усредняя соотношения (1.3-11), (1.3-13), (1.3-14), (1.3-15 a) и b)), (1.3-18) и (1.3-29) по произведению ансамблей XY. Получаем
I(X;Y) = I(Y;X), (1.3-45)
I(X;Y) ≤ (1.3-46)
I(X;Y) ≥ 0, (1.3-47)
H(XY) = H(X) + H(Y) – I(X;Y), (1.3-48)
I(X;YZ) = I(X;Y) + I(X;Z|Y), (1.3-49)
I(YZ;X) = I(Y;X) + I(Z;X|Y). (1.3-50)
Все эти равенства, кроме одного, не требуют никаких дополнительных пояснений. Равенство (1.3-48) устанавливает очевидное соотношение между средней взаимной информацией и тремя энтропиями, относящимися к тому же самому произведению ансамблей. Из равенств (1.3-41) и (1.3-48) получаются следующие два различных выражения для средней взаимной информации:
I(X;Y) = H(X) – H(X|Y), (1.3-51)
I(X;Y) = H(Y) – H(Y|X). (1.3-52)
Эти выражения особо интересны, если x является сообщением, передаваемым по каналу с шумом, а y – соответствующим принятым сигналом. В этом случае соотношение (1.3-51) устанавливает, что среднее количество информации о сообщении, содержащееся в принятом сигнале, равно среднему количеству информации, необходимому для определения сообщения x минус среднее количество информации, которое всё ещё потребуется для определения x после приёма сигнала. При такой интерпретации можно понимать энтропию H(X) как среднее количество переданной информации; I(X;Y) как среднее количество информации, полученной о переданном сообщении, и условную энтропию H(X|Y) как среднее количество информации, потерянное вследствие шума, или как ненадёжность.
Равенство (1.3-52) подчёркивает другой взгляд на среднее количество информации, а именно как на разность между средним количеством информации, необходимым для определения принятого сигнала, и средним количеством информации, необходимым для определения того же сигнала, когда известно переданное сообщение. Следовательно, H(Y|X) есть среднее количество информации, необходимое для определения помехи, имеющей место в канале, и эту величину можно также понимать как энтропию шума в канале (энтропия H(Y|X) является частью энтропии Y , которая возникает вследствие шума в канале).
Можно также сказать, что разность в правой части равенства (1.3-51) выражает среднее изменение неопределённости переданного сообщения, вызванное приёмом сигнала y. Эта интерпретация основана на том, что H(X|Y) может быть получено усреднением по ансамблю Y энтропии (неопределённости) X при условии, что задано значение yi:
H (X | yi) (1.3-53)
Отсюда, однако, нельзя сделать вывод, что разность H(X) – H(X|yi) представляет собой среднее количество информации, доставляемое при приёме yi, во всяком случае, в смысле введённой с помощью (1.3-9) меры информации. Действительно, из (1.3-32) видно, что
I (X | yi) ≠ H (X) – H (X | yi). (1.3-54)
Разность энтропий в правой части представляет собой изменение среднего количества информации, получающегося при наложении условия yi на ансамбль X и необходимого для определения всех x. В то же время I (X | yi) представляет собой среднее изменение количества информации, необходимое для определения того частного x, которое получается при приёме yi . Иначе говоря, log P(x) умножается на P(x) при суммировании в правой части равенства (1.3-54) и на P(x/yi) в сумме в левой части.
Количество информации и избыточность.
Количество информации только тогда равно энтропии, когда неопределённость ситуации снимается полностью, а в общем случае нужно считать, что количество информации есть уменьшение энтропии вследствие какого-либо опыта или иных действий.
Итак, I = H при полном снятии неопределённости и
I = H1 – H2 (1.3-55)
при неполном разрешении. Соотношение (1.3-55) задаёт, так сказать, частичную информацию, являющуюся разностью между начальной и конечной энтропиями рассматриваемой системы.
Наибольшее количество информации получается тогда, когда полностью снимается
максимальная неопределённость: точки ансамбля, представляющего рассматриваемую систему, равновероятны. Эта информация оценивается мерой Хартли I′ = log M, где M – число точек пространства. Максимальная энтропия при этом
Hmax = log 1/p = – log p = I′ = log M, (1.3-56)
где p – одинаковые вероятности точек ансамбля.
Абсолютная избыточность информации представляет собой разность между максимально возможным количеством информации и энтропией
Dabs = I′ – H = Hmax – H. (1.3-57)
Используют также понятие относительной избыточности
. (1.3-58)
*1.4 Понятие о семантических и других мерах полезности информации
Семантические меры информации: содержательность,
целесообразность и существенность информации.
Под семантикой понимается смысл, содержание информации. Семантика входит в систему понятий семиотики – науки о знаках, словах и языках.
Знаком называется условное изображение элемента сообщения, словом – совокупность знаков, имеющая смысловое (предметное) значение, языком – словарь и правила пользования им.
В семиотике различают синтактический, семантический, сигматический и прагматический аспекты теории информации.
Рассмотренные ранее структурная и статистические оценки информации относятся к синтактическому аспекту.
Сигматический аспект отображается теорией сигналов и кодов, рассматривающей условные обозначения элементов информации. Сигналы являются физическими носителями обозначенных элементов, а коды – обозначениями этих элементов. Сигматические оценки не имеют прямого отношения к мерам информации. В определённой степени эти вопросы будут затронуты в дальнейшем.
Остаётся рассмотреть семантические и прагматические оценки информации. Следует отметить, что в инженерных приложениях прагматические оценки сливаются с семантическими, поскольку не имеющие смысла сведения бесполезны, а бесполезные сведения бессмысленны.
Оценка эффективности логического вывода, степени приближения к истине требует некоторой формализации, в данном случае – формализации смысла. Один из путей такой формализации предлагается семантической теорией информации. Её основоположники Карнап и Бар-Хиллел предложили использовать для целей измерения смысла функции истинности и ложности логических высказываний. За основу дискретного описания объекта берётся атомарное (неделимое) предложение, подобное элементарному событию теории вероятностей и соответствующее неделимому кванту сообщения. Полученная таким образом оценка получила название содержательности информации.
Мера содержательности информации обозначается cont (от английского «content» – содержание). Содержательность события (x) выражается через функцию меры m(x) содержательности его отрицания ( x) как
cont (x) = m ( x) = 1 – m (x). (1.3-59)
Оценка содержательности основана на математической логике, в которой логические функции истинности m(x) и ложности m( x) имеют формальное сходство с функциями вероятностей события p(x) и антисобытия q(x) в теории вероятностей. В обоих случаях имеют место сходные условия
m (x) + m ( x) = 1 ; p (x) + q (x) = 1,
причём q (x) = p ( x). Как и вероятность, содержательность изменяется в пределах
0 ≤ m (x) ≤ 1.
Соответственно сходны статистическое и логическое количества информации. Статистическая оценка количества информации (энтропия) согласно (1.3-15)
I = log (1 ⁄ p(x)) =– log p(x).
Логическая оценка количества информации, получившая обозначение Inf,имеет сходное выражение
Inf = log [1 ⁄(1 – cont (x) )] = log (1 ⁄ m (x)) = – log (m ( x)). (1.3-60)
Отличие статистической оценки от логической в том, что в первом случае учитываются вероятности реализации тех или иных событий, а во втором – меры истинности или ложности событий, что приближает к оценке смысла информации.
Если информация используется в системах управления, то её полезность разумно оценивать по тому эффекту, который она оказывает на результат управления. А.А. Харкевичем была предложена мера целесообразности информации, которая определяется как изменение вероятности достижения цели при получении дополнительной информации.
Полученная информация может быть пустой, т. е. не изменять вероятности достижения цели, и в этом случае её мера равна нулю. В других случаях полученная информация может изменять положение дел в худшую сторону, т. е. уменьшать вероятность достижения цели, и тогда она будет дезинформацией, которая измеряется отрицательным значением количества информации. Наконец, в третьем, благоприятном случае, получается добротная информация, которая увеличивает вероятность достижения цели и измеряется положительной величиной количества информации.
Мера целесообразности в общем виде может быть аналитически выражена в виде соотношения
Iцел. = log p1– log p0 = log p1 ∕ p0 , (1.3-61)
где p0 и p1 – начальная (до получения информации) и конечная (после получения информации) вероятности достижения цели.
Параметрическая информация, как было показано во введении, может быть представлена трёхмерной моделью, осями координат которой являются параметр X, пространство N и время T, причём под пространством понимается упорядоченное множество источников информации, в частности, измеряемых величин.
Значения величин, точки пространства и моменты времени неравнозначны как сами по себе, так и во взаимных отношениях. Например, наиболее существенны высокие значения давления и температуры в точке выхода газа в момент отрыва ракеты от земли. В других точках и в другие моменты времени эти параметры могут быть несущественны.
Можно различать:
1) существенность самого события;
2) существенность времени совершения события или момент его наблюдения
(рано – поздно);
3) существенность места, адреса, номера, локализации, точки пространства, координаты совершения события.
Измерение величины X можно характеризовать несколькими её функциями: вероятности p(x), погрешности измерения ε(x) и существенности c(x). Каждой из этих функций можно поставить в соответствие определённую меру информации. Мерой Хартли оценивается функция погрешности ε при фиксированных значениях функций вероятности и существенности (p = const; с = const). Мерой Шеннона оценивается функция вероятности (p = var) при фиксированных значениях функций погрешности и существенности (ε = const; c = const). Мера существенности информации относится к ситуации с фиксированными функциями погрешности и вероятности (ε = const; p = const). Можно ввести функции существенности cX, зависящие от величины X, cT, зависящие от времени T, cN, зависящие от пространства (канала) N.
Функция существенности отражает степень важности информации о том или ином значении параметра с учётом времени и пространства и должна удовлетворять условию нормированности.
Динамическая энтропия.
В том случае, когда целью извлечения информации является обращение в нуль неопределённости ситуации, удобно пользоваться понятием динамическая энтропия.
В ходе распознавания образов, диагноза болезней, расследования преступлений и т. п. энтропия (неопределённость) ситуации изменяется во времени: H = H(t). Изменения обуславливаются поступлением в определённые моменты времени дополнительной информации: положительная информация уменьшает неопределённость, отрицательная (дезинформация) – увеличивает неопределённость ситуации.
Большинство ситуаций можно представить как множество отношений между следствиями {ai} и причинами{bj}. Так, например, следствиями и причинами могут быть: при распознавании – образы {ai} и признаки {bj}; при диагнозе болезней – заболевания {ai} и симптомы {bj}; при расследовании – преступления {ai} и подозреваемые лица {bj}. Отношения между следствиями и причинами оцениваются вероятностями pi j (t). Если связи между следствиями и причинами нет, то pi j (t) = 0; если же между ними имеется полная и однозначная связь, то pi j (t) = 1.
Если обозначить N(t) – общее количество следствий, а M(t) – общее количество причин в момент времени t , то, в соответствии с (1.3-37) энтропия (неопределённость) для данного множества отношений
H(t) =
По истечении единичного интервала времени поступает дополнительная информация, могущая изменить: количество следствий до N(t+1), количество причин до M(t+1) и вероятности отношений до pi j (t+1). В результате этого энтропия (неопределённость) ситуации в момент (t+1) получает выражение
H(t+1) =
В качестве меры информации, повлиявшей на энтропию в указанном выше смысле целесообразно принять разность
I = ΔH = H(t) – H(t+1), (1.3-62)
которая может быть как положительной, так и отрицательной величиной, в зависимости от того, уменьшается или увеличивается неопределённость ситуации.
Энтропия, шум и тезаурус.
До сих пор при оценке полезности информации не рассматривалась возможность её восприятия и обработки приёмником. Можно рассмотреть полезность информации как от степени новизны, так и от способности приёмника к её восприятию и обработке.
Следствием потребительского аспекта является дополнение информации понятием актуации в смысле активного запроса информации со стороны заинтересованного приёмника. При этом имеется ввиду тесная связь между этими понятиями, так как в каждой актуации может содержаться некоторая информация.
Существует три типа вопросов: в одном отсутствует предвосхищение ответа, в другом имеется некоторая доля ответа, в третьем полностью содержится ответ и требуется только его подтверждение. Таким образом, замыкается связь между двумя системами (рис.1-1): системой Sx , являющейся поставщиком информации, и системой Sy – потребителем информации.
Целесообразно также использование понятия тезауруса (от греческого «сокровищница»), под которым понимается запас знаний, или словарь, используемый приёмником информации.
С учётом сказанного можно систему извлечения, передачи и приёма информации представить в виде схемы рис. 1-2. На этой схеме источник (объект) обладает определённой энтропией H, которая характеризует способность источника отдавать информацию. Отдача может быть неполной. Информация I = H1 – H2 поступает в канал, где часть информации теряется или искажается шумом N. Оставшаяся информация достигает приёмника и воспринимается им в той степени, в какой это позволяет сделать тезаурус.
информация Источник Приёмник
(ответ) (Объект) Канал (Субъект)
и
SS Iα IΩ
актуация
(запрос) Потеряно
Система Sx Система Sy Энтропия Шум Тезаурус
Объект Субъект H N Θ
Источник Приёмник
Информация Актуация
Ответ Запрос Рис. 1-2. Схема извлечения, передачи и
Язык X Язык Y приёма информации с учётом H, N и Θ.
Структура Композиция
Энтропия Тезаурус
Семантика Прагматика
Рис. 1-1. Обобщённое представление процесса
обмена информацией между двумя системами
Может оказатьсься, что несмотря на высокое богатство структуры и статистики на передающей стороне, приёмная сторона не будет нуждаться в этой информации, так как она уже обладает ею, не имеет в ней потребности или просто не умеет с ней обращаться.
Возможна и другая ситуация. Если тезаурус не адекватен передаваемой информации, очень мал или вообще отсутствует, то самая новая и богатая информация не воспринимается вследствии того, что она не будет принята приёмником. В тоже время, с приёмом новоё информации тезаурус может обогащаться
Пусть богатство тезауруса оценивается некоторой величиной Θ. Изменение тезауруса под действием сообщения Η можно оценить количеством информации I (Η, Θ). Имеется некоторое минимальное количество информации Imin (Θ) априорной информации I (Θ) тезауруса в системе Sy, при которой эта система начинает принимать сообщения , поступающие от системы Sx. В силу выпуклости и положительной определённости информации величина I (Η, Θ) возрастает до Imax (Η, Θ) при увеличении I (Θ) до Iopt (Θ), где достигается максимум восприятия. Далее следует спад, обусловленный тем, что априорные знания (тезаурус приёмника) становятся настолько богатыми, что источник не приносит новой полезной информации. При I (Θ) = Imax (Θ) восприятие информации прекращается, так как система Sy оказывается насыщенной знаниями в пределах возможностей системы Sx – потенциального источника информации.
Если языки X и Y однозначно определены, то могут быть предусмотрены трансляторы – переводчики Y→ X и X→ Y, располагаемые в SX , Sy или и там, и там (совместно). В других случаях возникает проблема взаимопонимания, которая решается методами распознавания и самообучения. При единстве языков возможно непонимание из-за действия помех и искажений.
В схеме на рис. 1-1 указаны структурные, статистические и семантические характеристики информации: структура, энтропия и семантика на стороне источника Sx; композиция сообщения, в целом тезаурус и прагматика на стороне приёмника Sy.
Композиция отражает те же стороны информационной системы, что структура информации, тезаурус – те же, что энтропия, прагматика – те же, что семантика, хотя связь между этими парами понятий нельзя считать установившейся.
Наиболее близкими между собой являются понятия структуры и композиции. Структура как основа исчисления количества информации предполагает дискретное строение и декомпозицию информации, осуществляемые на передающей стороне. Поэтому естественной формой приёмной стороны является композиция, заключающаяся в том, что по возможности восстанавливаются нарушенные связи между элементами информации или воссоздаётся непрерывность информационного комплекса. Иногда это может повлечь за собой переоценку информации.
Другие подходы к определению информации и её мер.
В заключение следует сказать, что к настоящему времени известно довольно много подходов к определению как самого понятия «информация», так и всевозможных количественных и качественных аспектов её исследования.
Так к структурным мерам информации можно добавить топологическое количество информации, которое возникло как попытка определения топологического различия (например, различие вершин графов по степеням, по ориентации рёбер и т. д.).
Рассматривая статистические меры информации в формализме Шеннона – Фано следует иметь ввиду, что такой подход не единственно возможный. Так по Р. Фишеру информация задаётся выражением
(1.3-63)
где v – оцениваемый параметр; g(x/v) – условное выборочное распределение (функция правдоподобия); – логарифмическая производная функции правдоподобия; Mv – символ математического ожидания. Итак, информация по Р. Фишеру есть результат усреднения квадрата логарифмической производной функции правдоподобия по всем точкам выборочного пространства Ω .
Еще одна количественная мера информации была предложена С. Кульбаком [9]:
, (1.3-64)
где I(H1| H2) – среднее количество информации для различения в пользу H1 против H2 по мере μ1(х); I(H2| H1) – среднее количество информации для различения в пользу H2 против H1 по мере μ2(х). Числа I(H1| H2) и I(H2| H1) называют также направленными расхождениями в отличие от меры J(H1; H2) называемой расхождением . Меры I(H1| H2) и I(H2| H1) представляют собой специальный вид информационных расстояний между проверяемыми гипотезами, но они не являются метрикой в полном смысле этого слова так как для них не выполняется первая аксиома метрики: I(H1| H2) ≠ I(H2| H1). Этого недостатка лишено расхождение J(H1; H2). В (1.3-64) интеграл понимается в смысле Лебега. В случае дискретных статистических ансамблей, а также в ряде непрерывных случаев (этот вопрос требует особого рассмотрения и далеко выходит за рамки данного пособия), т. е. всегда, когда можно понимать dμ1 = f1(x)dx; dμ2 = f2(x)dx. Тогда имеем дело с обычным интегралом Римана и
J(H1; H2) = (1.3-65)
Особый интерес представляет собой алгоритмический подход А. Н. Колмогорова. Исходным здесь является понятие условной энтропии H(x/y) объекта x при заданном объекте y, которая определяется как минимальная длина l «программы» π (записанной в виде последовательности нулей и единиц), позволяющей построить объект x, когда в распоряжении имеется объект y
H (x / y) = (1.3-66)
где φ – некоторый «универсальный» метод программирования..
Эта энтропия интерпретируется как количество информации, необходимое для задания объекта x в обстановке, когда объект y уже задан.
Алгоритмический подход является свидетельством того, что основные понятия теории информации могут быть обоснованы без помощи обращения к теории вероятностей, а такие понятия как «энтропия» и «количество информации» , оказываются применимыми к индивидуальным объектам. Новая схема построения теории вероятностей (вытекающая из алгоритмического подхода и основанная на естественной мысли о том, что случайность есть отсутствие закономерности) подчёркивает равносильность различных подходов к определению понятия количества информации и показывает, что ни информация, ни вероятность не являются первичными понятиями – на них естественно смотреть как на «равноправные» понятия, отображающие взаимосвязанные между собой свойства объективной реальности
Весьма своеобразный подход к построению меры количества информации предложен Я. А. Рипсом. В данном случае количество информации определяется на основе использования весьма широкого понятия правдоподобия (или неправдоподобия). Аналогично шенноновской «неопределённости» первичное понятие «правдоподобия» в концепции Я А. Рипса предполагается интуитивно данным. Предложенная мера имеет вид
I(xk; yi) = [– ln L(yi)] – [– ln L(xk /yi)]. (1.3-67)
Здесь X = {xk} и Y = {yi} – дискретные ансамбли; – ln L(yi) – неправдоподобие следствия yi; – ln L(xk /yi) – неправдоподобие причины xk с точки зрения наблюдаемого следствия yi; I(xk; yi) – информация о причине xk в наблюдаемом следствии yi . Формально вся теория здесь может быть построена без привлечения вероятностей, на основе только двух функций: L(yi) и L(xk /yi) (правда, придётся ввести тогда операцию усреднения).
Ценность информации.
Достаточно много внимания уделяется также понятию ценности информации. Вопрос о ценности информации поднимался ещё в основополагающих работах Шеннона, но до тех пор, пока теория информации была связана только с техникой связи, проблему ценности можно было игнорировать, поскольку канал связи должен был одинаково хорошо работать независимо от конкретного содержания информации, подлежащей передаче по этому каналу. По настоящему актуальным он стал в связи с
развитием прикладной теории информации и проникновением её идей в многочисленные приложения. Благодаря использованию понятия ценности в формализм теории информации было внесено конкретное физическое и техническое содержание, отражающее реальное назначение систем. Во всех работах, посвящённых этой проблеме, ценность информации связывается с конечным эффектом, ради достижения которого эта информация используется: чем конечный эффект больше, тем больше ценность информации. Многообразие конкретных целей и ситуаций обусловили разнообразие подходов к проблеме ценности информации, каждый из которых отражает наиболее существенные для данной ситуации стороны. Независимо от того, ведётся ли исследование на уровне абстрактно-математическом или прагматически-прикладном, все разнообразные подходы можно сгруппировать в три направления: связанное с минимизацией потерь; имеющее в виду максимизацию выигрыша; и учитывающее ценность информации как субъективный фактор для воспринимающего субъекта.
Концепция ценности информации, связанная с минимизацией потерь, в основном отражается: – в теории, исходящей из минимизации штрафов; – в ценностной теории информации; – в аспекте минимизации числа шагов поиска решения задачи; – в подходе, учитывающем затраты на осуществление эксперимента, приносящего информацию.
Оценка информации с позиций минимизации штрафов наиболее обстоятельно разработана Р. Л. Стратоновичем. Функция ценности информации связывается с минимальными средними потерями (штрафами) M[c(x,u)] , достигаемых при приёме заданных количеств информации. Функция штрафов c(x,u) выбирается так же, как она выбирается в теории статистических решений, и зависит от истинного значения определяемой (в общем случае многомерной) переменной x и от её оценки u, приносящей информацию об истинном значении x. В качестве меры ценности информации принимается величина
T(I) = R(0) – R(I) (1.3-68)
разности функции потерь при отсутствии информации и при её получении (при минимальном значении функционала R(I) достигается максимум T(I)).
С другой стороны, – и это совершенно эквивалентно – ценность информации можно связывать с минимизацией количества информации при фиксированном значении функции потерь.
В понятие потерь (штрафов) может быть заключено самое различное содержание. Так в шенноновской теории информации система связи оптимизировалась в предположении минимизации функции потерь в виде вероятности ошибочного приёма сообщений, и в этом смысле шла речь о максимизации ценности информации. Введение понятия ε-энтропии, рассмотрение которой предполагается в дальнейшем, фактически связало ценность информации с функцией потерь в виде неточности воспроизведения информации. Функции потерь (штрафа, риска) могут иметь и многие другие конкретные формы, отражающие существо решаемых задач, концентрирующие внимание на наиболее «опасных», нежелательных последствиях, «издержках», которые могут возникнуть (или принципиально сопутствуют решению этих задач).
В основе ценностной теории информации лежит представление о ценности информации, связанной с функцией полезности, которая количественно выражается через стоимость в денежных единицах – чем меньше стоимость, тем ценнее информация. Функция полезности может быть и отрицательной, если решение, принятое на его основании полученной информации, приносит ущерб. Роль функции штрафов c играет здесь непосредственно стоимость затрат, выраженная в денежных единицах.
В качестве функции штрафов c можно принять некоторую меру трудности решения задачи. Моделью такого рода служит система, которая для решения задачи ведёт экспериментальную работу (метод проб и ошибок) и таким образом извлекает некоторые сведения, которых она сначала не имела. В качестве трудности задачи для этой системы принимается некоторая функция числа проб, необходимых для нахождения решения. Предположим, что информация, о которой идёт речь, относится к состояниям природы x. Пусть {x1, ... , xm} – множество возможных состояний природы, каждое из которых встречается с вероятностью pi (x = xi). Через X обозначим опыт, заключающийся в определении того, в каком именно состоянии находится природа. В качестве функции штрафов примем расходы на проведение опыта – c· H(X), где c const , H(X) – энтропия опыта, исчисляемая обычным образом по (1.3-37).
Лицо А, ведущее игру с природой, может осуществить одно из действий {y1, ... , yn}, а его платёж в случае, когда состояние природы есть xi , а избрано действие yj, – есть χi j. Если опыт Х был произведён и, следовательно, лицо А получило информацию о том, что x = xi , то оно изберёт действие yj , минимизирующее его платёж, который в этом случае будет равен min χi j. Таким образом, математическое ожидание платежа при выборе действий после опыта, равно
M[min χi j] =
Если же лицо А изображает своё действие до опыта Х , то оно будет действовать в зависимости от принятой им стратегии. Если это байесовская стратегия, т. е. избирается действие, минимизирующее математическое ожидание платежа, то последний будет равен
Разность
ρ(X) = (1.3-69)
принимается за меру ценности информации, содержащейся в опыте Х. Естественно, если ρ(X) < c· H(X), т. е. «выгода» опыта u(X) = ρ(X) – c· H(X) < 0, проведение опыта Х нецелесообразно и предпочтительней принимать решение на основе байесовской стратегии. Эту идею можно обобщить на ситуацию с более широким выбором, когда имеется возможность осуществить несколько опытов с несколькими исходами.
В тех ситуациях, в которых конечной целью является максимальный выигрыш, ценность информации связывается с увеличением вероятности достижения цели в результате получения информации. Следует заметить, что максимизация выигрыша и минимизация проигрыша (потерь или штрафов) лишь в простейших, по существу тривиальных случаях (например, погрешность – точность, расход – приход и т. п.) представляются как одно и то же. Поэтому минимум потерь в общем случае может не соответствовать максимуму выигрыша и подходы к проблеме ценности информации в этих концепциях существенно разные, друг к другу не приводимые. К категории подходов, исходящих из идеи максимизации выигрыша, относятся связанные с выбором пути, приводящего к достижению цели, и отражающие эффективность и помехоустойчивость систем.
Если цель, для достижения которой собирается информация, может быть ясно определена, то ценность информации может быть выражена через приращение вероятности достижение цели как, например, мера целесообразности информации, задаваемая соотношением (1.3-61).
При построении систем ценность информации также естественно связать с вероятностью достижения цели. Необходимой предпосылкой решения задачи стоящей перед системой, является получение и переработка некоторого минимально необходимого количества специфической информации, отражающей обстановку Y , в которой работает система, и связанной с решаемой ею задачей X. Одной из простейших моделей может служить та, в которой цель X можно достигнуть различными путями xj (1 ≤ j ≤ n), общее количество которых известно; при этом вероятности достижения цели по различным путям φ(xj) априори неизвестны. Для оптимального решения задачи, получаемая информация должна позволить определить значения φ(xj) на путях xj и выбрать тот путь, на котором величина φ(xj) наибольшая.
Необходимая информация об обстановке получается от источника yi. Ценность информации Ii от источника yi тем выше, чем больше вероятность достижения цели Фi(Х) при её использовании. Вероятность достижения цели при случайном (произвольном) выборе одного из путей xj равна:
где Pj – вероятность выбора пути xj . До получения информации эта вероятность имеет некоторое априорное распределение и естественно допустить, что при полном отсутствии информации Pj = 1/ n = const и вероятность достижения цели при отсутствии информации равна среднему значению функции φ(xj) по всем n путям. Очевидно, Ф(Х) ≠ 0. Получение информации Ii j источника yj о пути xi меняет распределение вероятностей Pj, что позволяет вычислить (по той же формуле) вероятность достижения цели Фi(Х) при получении i – го сообщения. В качестве меры ценности информации принимается величина
Zi = Фi(Х) – Ф(Х). (1.3-70)
Апостериорное распределение вероятностей Pj в значительной мере определяется субъективными факторами, проявляющимися в решении, принимаемом человеком или закладываемом им в поведение технической системы. Поэтому полная формализация поведения системы при получении информации затруднительна.
Выражение для Zi в конкретных случаях (когда определён характер содержания информации Ii j ) связывает ценность информации с эффективностью системы – вероятностью достижения цели (решения задачи); систему надо построить так, чтобы источники и пути ввода информации приносили сообщения о тех путях, которые доставляют максимум Zi .
Вторая существенная сторона проблемы ценности информации связана с помехоустойчивостью, которая, как это будет показано в дальнейшем, определяется соотношением C0 = I0 i ∕ T, где I0 i – минимально необходимое количество информации из i-го источника, Т – время переработки этой информации системой (быстродействие). Величину I0 i можно представить в виде суммы трёх слагаемых:
I0 i = Iφ + In + IΔ = Hφ + Hj + IΔ,
где Iφ и In – соответственно количества информации, минимально необходимые для определения φ(xj) и для выбора j-го пути; IΔ – то дополнительное (избыточное) количество информации, которое система, при данном конкретном её построении, должна переработать для получения необходимых информаций Iφ и In . Вторая часть равенства справедлива, поскольку минимально необходимые количества информации равны соответствующим энтропиям. В рационально построенной системе IΔ = 0. Величина Hφ также зависит от построения системы и, в частности, от введённой в неё априорно информации о значениях φ(xj) на различных путях xj ; теоретически, в пределе Hφ → 0. Величина In = Hj отражает прямое назначение системы рассматриваемого типа и равна абсолютно минимальному количеству информации, асимптотически необходимому для функционирования системы в заданных условиях. Таким образом
C = (Hφ + Hj + IΔ) ∕ T ,
а мерой ценности информации, получаемой от i-го источника о j-м пути, может служить с точки зрения помехоустойчивости, величина
γi j = (1.3-71)
где Imax – наибольшее количество информации, которое асимптотически может переработать система за время T ; в пределе величина γi j может стремиться к значению
γi j max = Imax ∕ In.
В качестве обобщённой характеристики ценности информации, учитывающей как связанную с ней эффективность, так и помехоустойчивость системы, вводится величина zi, которая названа удельной ценностью информации, представляет собой приращение вероятности достижения цели Zi, приходящееся на единицу полученной информации:
zi = Zi ∕ I0 i = [Фi(Х) – Ф(Х)] ∕ (Hφ + Hj + IΔ) . (1.3-72)
В качестве мер ценности информации (1.3-70) и (1.3-71) целесообразно применять не логарифмические, а абсолютные меры, поскольку сама ценность информации связывается здесь не с мерами количества информации (измеряемых в логарифмических единицах), а непосредственно с приростом показателя эффективности систем, измеряемого в большинстве случаев в абсолютных (или относительных) единицах.
Рассмотренные подходы к проблеме ценности информации обладают заметной долей эвристических элементов. Наиболее формализованы подходы, опирающиеся на минимизацию штрафов, хотя и здесь выбор функции штрафов нередко представляет собой эвристический акт. Ещё более неформализованным является подход, исходящий из максимизации выигрыша. Обычно достаточно чётко осознаваемый выигрыш часто требует немалых трудов для того, чтобы явно выразить его в количественной, функциональной или алгоритмической форме; этот процесс в значительной мере является эвристическим.
Естественно поэтому, что субъективные аспекты ценности информации в принципе не могут не быть существенно эвристическими и даже интуитивными, поскольку речь идёт о проблемах, касающихся поведения и субъективных оценок, относящихся к человеческой личности. Это конечно не умаляет значение попыток формализовать этот аспект ценности информации.
Субъективные аспекты ценности информации нашли отражение в учёте «близости» двух выборок (исходов), с точки зрения индивидуума, в учёте свойств получателя информации и в ценности информации для субъекта при мотивированном выборе того или иного образа действий.
Так П. Вайс использовал меру информации, связанную с субъективной оценкой близости двух исходов Ai и Ak в следующей абстрактно представляемой метрике
d i j(Ai ; Ak ) (1.3-73)
где ai j и ak j – упорядоченные, нормированные к единице количественные результаты исходов Ai и Ak . Понятие субъективной неопределённости и соответственно субъективной информации, необходимой для снятия этой неопределённости, связывается не только с априорным распределением вероятностей различных исходов Pi, но и с субъективными вероятностями Qi, т. е. с гипотетическими вероятностями распределения результатов этих исходов, имеющих значение для получателя. Сообщение М может приводить к изменению объективных Pi или субъективных Qi вероятностей исходов опыта А или к изменению ai j . Последние могут как увеличиваться (состояние «возбудимости») так и уменьшаться (состояние «успокоенности»). За меру субъективной информации, получаемой наблюдателем при получении им сообщения М относительно опыта А, предлагается величина
Is (M|A) = Hs(A) – Hs(A|M), (1.3-74)
где Hs(A) – субъективная (для наблюдателя) неопределённость опыта А, а Hs(A|M) – субъективная неопределённость опыта А, при условии, что наблюдатель получил некоторое сообщение М.
В ином аспекте субъективной ценности информации Майлсом введено понятие целеустремлённого состояния, означающего, что:
во-первых, существует по крайней мере один исход О1поведения индивидуума, имеющий для последнего некоторую значимость в данной ситуации;
во-вторых, существуют по крайней мере две различные последовательности действий С1 и С2 , приводящих к результату О1 с различной эффективностью.
Состояние S определяется: F – индивидуумом; С1 , ... , Сi, ... , Сm – альтернативными последовательностями действий; О1 , ... , Оj, ... , Оn– возможными результатами действий.
К переменным состояния относятся: Pi = P(Сi| F) – вероятность того, что F выберет путь Сi; Ei j – вероятность того, что путь Сi приведёт к результату Оj, т. е. эффективность пути Сi по отношению к результату Оj; Vj – относительная значимость j-го результата для F.
Значимость целеустремлённого состояния понимается как средняя относительная значимость по всем возможным парам путей и результатов
V(S) (1.3-75)
Связь между индивидуумами F1и F2 означает, что сообщение, передаваемое F2, меняет характеристики целеустремлённого состояния F1, т. е. меняет переменные состояния Pi, Ei j и/или Vj. Если при этом сообщение влияет на вероятность выбора направления действия Pi , то оно информирует, если сообщение изменяет Ei j , то оно инструктирует, если сообщение меняет Vj , то оно мотивирует. Соответственно этому информация связана с тем, что делает индивидуум, инструкция – с тем, как он это делает, и мотивировка – почему он это делает. В качестве характеристик всех трёх типов связи предлагаются количественные меры.
Количество информации в состоянии S определяется выражением
А(S) (1.3-76)
А количество переданной информации
Ас = А(S2) – А(S1), (1.3-77)
где А(S1) и А(S2) – количество информации соответственно до и после приёма сообщения.
Инструктирование – это процесс передачи индивидууму способности управления исходами, если таковая у него отсутствует или недостаточна. Степень управления i-й последовательностью действий Сi относительно выбранного исхода Оj задаётся выражением
B(Сi |Оj) = (Ei j | Vj = 1) – (Ei j | Vj = 0);
Степень управления последовательностью действий Сi относительно всех исходов Оj определяется как
B(Сi) =
Степень управления всеми последовательностями действий понимается как степень «инструктированности» в некотором состоянии определяется в виде:
В(S) = (1.3-78)
Количественная оценка инструкции, передаваемой сообщением, определяется как
Вс = В(S2) – В(S1). (1.3-79)
Мера мотивировки в некотором состоянии определяется выражением
С(S) = (1.3-80)
и соответственно степень мотивировки в передаваемом сообщении
Сс = С(S2) – С(S1). (1.3-81)
Ценность сообщения определяется как разность ценности информации в конечном и начальном состояниях:
Vс =V(S2) – V(S1) = (1.3-82)
где ΔPi , ΔEi j и ΔVj – изменение переменных состояния при переходе от S1 к S2 , т. е. при передаче сообщения.
Приведённый (и далеко не полный) перечень используемых количественных мер информации говорит о многообразии конкретных подходов в рамках системы информационных представлений.
Фундаментальное и наиболее многостороннее математическое обоснование имеют меры информации, опирающиеся на концепцию выбора Хартли – Шеннона. Эта концепция хотя и удобна, но не единственна для обоснования понятий информации и мер её количества, свидетельством чему – алгоритмическая концепция Колмогорова, меры Кульбака и т. п.
Другие меры имеют различную степень математической обоснованности, но следует отметить, что эвристические, интуитивные предпосылки лежали уже в основе самых первых утверждений теории информации (например, постулат аддитивности, из которого вытекала логарифмическая мера информации). Естественно и вполне закономерно введение эвристических мер информации при исследовании в областях неформализуемых или слабо формализуемых проблем.
Многие из мер информации могут быть соотнесены друг с другом. Таковы, при самых общих предпосылках, меры Шеннона, Фано, Больцмана и Хартли. В связи с задачами радиолокации установлена взаимосвязь мер Шеннона, Кульбака и Котельникова (здесь не рассматривалась). Определённая взаимосвязь мер информации Кульбака и Фишера усматривается через так называемую «различающую» информацию, связанную с планированием эксперимента. Мера информации в «алгоритмической» концепции Колмогорова близка, хотя и несколько отличается от шенноновской.
Другие меры занимают обособленное место и формально друг к другу не приводятся. Однако, независимо от конкретных форм и предпосылок тех или иных мер информации, все они имеют смысл лишь до тех пор, пока имеет место неопределённость, неожиданность, многообразие.
И, наконец, следует отметить, что для интерпретации большинства мер информации, в том числе и шенноновской, обращение к понятию «сообщение» вообще не является необходимым. Тем ни менее всё дальнейшее изложение будет опираться на это понятие как и на понятие «системы связи».
Лекция 2 Информация и энтропия для непрерывных
пространств
2.1 Обобщение количества взаимной информации
и энтропии на непрерывные ансамбли
Определение взаимной информации непрерывной случайной
величины.
Распространим введённые меры информации на точки, принадлежащие евклидовым пространствам произвольной размерности. Обозначим такое пространство через U, а через u – радиус-вектор точки этого пространства относительно заданного начала координат. Поскольку точки U образуют континуум, невозможно приписать каждой из них конечную вероятность. Однако можно определить функцию сколь угодно малой, но конечной области δU
P(δU) ≡ Pr (u δU), (2.1-1)
выражающую вероятность того, что точка u принадлежит области δU. Она является аддитивной функцией области δU в том смысле, что
P(δU1 + δU2) = P(δU1) + P(δU2), (2.1-2)
где δU1 и δU2 – непересекающиеся области U. Конечно
P(U) = 1, (2.1-3)
Так как по определению u принадлежит пространству U.
Такой подход позволяет ввести плотность распределения вероятностей
p(u) (2.1-4)
определяемой как предел, когда объём δU стягивается до нуля вокруг точки u. Предполагается, что предел существует в каждой точке пространства. Кроме того, полагают, что плотность распределения вероятностей p(u) кусочно непрерывно в пространстве U, т. е. непрерывна всюду, за исключением, быть может, дискретного числа поверхностей, отделяющих различные области U. Тогда вероятности, приписанные какой-либо частной области δU, можно выразить через плотность распределения вероятностей в виде интеграла
P(δU) =(u) dU, (2.1-5)
Где dU – дифференциальный элемент объёма U.
Аналогично для евклидова пространства V вероятность того, что некоторая точка, описываемая радиус-вектором v этого пространства, принадлежит к области δV, выражается в виде
P(δV) ≡ Pr (v δV) = , (2.1-6)
где p(v) – соответствующая плотность распределения вероятностей.
Произведение пространств W = U·V есть евклидово пространство размерности, равной сумме размерностей U и V. Если рассматривать U и V как подпространства W с совпадающими началами координат, то радиус-вектор w некоторой точки из W есть сумма радиус-векторов u и v проекций w на подпространства U и V: w = u + v. Таким образом, отдельная точка w пространства W представляет собой пару точек u и v пространств U и V. Как и раньше, распределение вероятностей на произведении пространств можно выразить через плотность p(w), однако для дальнейшего удобнее описать его как совместное распределение вероятностей на U и V, т. е. через функцию
P (δU, δV) ≡ Pr (uδU, vδV) = (2.1-7)
где p(u , v) – совместная плотность распределения вероятностей, определяемая пределом
p(u , v) (2.1-8)
в предположении, что этот предел существует и кусочно-непрерывен на произведении пространств U·V.
Тогда вероятность того, что u принадлежит δU, может быть выражена в виде двойного интеграла от совместной плотности вероятности p(u , v):
P (δU) =p(u , v) dUdV , (2.1-9)
откуда с помощью выражения (2.1-3) получаем, что
p(u ) =p(u , v) dV . (2.1-10)
Аналогично
p(v) =p(u , v) dU. (2.1-11)
Условная вероятность того, что u δU, когда vδV, равна, по определению,
P (δU | δV) (2.1-12)
Соответствующая плотность распределения вероятностей определяется как предел
p(u , v) p(u , v) / p(v). (2.1-13)
Теперь можно обобщить определение взаимной информации на непрерывные ансамбли. Рассмотрим произведение ансамблей U·V с заданной на нём плотностью вероятностей p(u , v). Взаимная информация между любыми двумя областями δU и δV равна, согласно (1.3-10),
I (δU ; δV) = .
Это количество информации, содержащееся в событии « u δU » относительно события « vδV », или, наоборот, – во тором событии относительно первого.
Взаимная информация между точкой и u точкой v определяется как предел взаимной информации между δU и δV, когда эти области одновременно стягиваются к точкам u и v:
I (u;v)≡. (2.1-14)
Также справедливо
I (u; v) ≡ (2.1-15)
Важно отметить, что взаимная информация между точками u и v есть функция от распределения вероятностей на произведении пространств U·V, но никак не зависит от положений точек, представляемых векторами u и v.
Из сказанного выше следует, что взаимная информация инвариантна относительно любых преобразований пространств U и V (с сохранением вероятностной меры). Рассмотрим взаимно-однозначное отображение пространств U и V в пространства U¹ и V¹ и обозначим u¹ и v¹ точки пространств U¹ и V¹, соответствующие u и v. Пусть при этом вероятностная мера на произведении пространств U·V переходит в вероятностную меру на произведении пространств U¹·V¹, так что
P (δU¹ ; δV¹ ) = P (δU, δV) (2.1-16)
где δU¹ и δV¹ есть области U¹ и V¹, соответствующие δU и δV. Из соотношения (2.1-14) следует, что
I (u¹ ; v¹) = I (u ; v), (2.1-17)
так как взаимная информация зависит только от вероятностей областей, которые, по предположению, инвариантны по отношению к преобразованию. Выполнение соотношения (2.1-16) задаёт инвариантность совместной плотности вероятности при преобразовании, т. е.
p(u¹ ; v¹) = p(u ; v),
но отсюда, при этом, не следует инвариантность p(u), p(v) и p(u | v) так как интегралы в определениях этих величин определяются конкретным видом пространств U и V, U¹ и V¹.
Средняя взаимная информация и энтропия для непрерывных
пространств
Условное математическое ожидание I (u; v) при фиксированном v есть, определяется соотношением
I (U; v) (2.1-18)
где интегрирование ведётся по всему пространству U, а dU – дифференциальный элемент объёма этого пространства. Это соотношение аналогично выражению (1.3-) для условного среднего значения взаимной информации для дискретных ансамблей и имеет тот же смысл в случае непрерывных пространств. Для величины, задаваемой соотношением (2.1-18), справедлив «непрерывный» аналог теоремы
Т е о р е м а 2.1-1. Для заданного произведения непрерывных ансамблей U·V условное математическое ожидание I (U; v) взаимной информации удовлетворяет неравенству I (U; v) ≥ 0, в котором знак равенства имеет место тогда и только тогда, когда p(u | v) = p(u).
Доказательство этой теоремы сходно с доказательством теоремы 1.3-1.
Среднее значение взаимной информации по произведению ансамблей U·V есть, по определению,
I (U; V) . (2.1-19)
Отсюда и из теоремы 2.1-1 следует, что
I (U; V) ≥ 0, (2.1-20)
Где равенство имеет место тогда и только тогда, когда U и V статистически независимы.
Величину, определяемую соотношением (2.1-19), можно представить как предел, к которому сходится среднее значение взаимной информации между конечными областями пространств U и V, когда эти два пространства разбиваются на всё более меньшие и меньшие области. Предположим, что пространство U разбито на n областей, а пространство V на m областей.
Т е о р е м а 2.1-2. Среднее по произведению пространств значение взаимной информации между областями δUk и δVi
(2.1-21)
не убывает при любом подразбиении областей.
Д о к а з а т е л ь с т в о. Утверждение теоремы равносильно утверждению того, что среднее значение, задаваемое формулой (.1-21), никогда не возрастает при объединении любых двух областей в одну. Ввиду симметрии между пространствами U и V для этого достаточно показать, что для любых двух областей δUk и δUj справедливо неравенство
P(δUk | δVi)·I(δUk ; δVi) + P(δUj | δVi)·I(δUj ; δVi) ≥ P(δUk+ δUj | δVi)·I(δUk+ δUj ; δVi),
эквивалентное неравенству
Это неравенство доказывается с помощью неравенства (1.3-31).
Ч. Т. Д.
Из доказанной теоремы следует вывод, что среднее значение взаимной информации, определяемое равенством (2.1-19) является пределом для соотношения (2.1-21) при дальнейшем подразбиении областей и его можно рассматривать как максимальное среднее значение взаимной информации между областями пространств U и V при любых разбиениях этих пространств.
Подставляя выражение (2.1-15) для I (u; v) в формулу (2.1-19) получаем
I (U; V) = H (U) – H (U | V) = H (V) – H (V | U), (2.1-22)
где
H (U) (2.1-23)
H (U | V) (2.1-24)
определяемые из аналогичных выражений. Формула (2.1-22) для среднего значения взаимной информации по своему виду аналогична выражениям (1.3-51) и (1.3-52) для дискретных пространств. Однако энтропия и и условная энтропия , определяемые равенствами (2.1-23) и (2.1-24), не являются средними значениями собственной информации, как это имело место в случае дискретной информации.
Понятие «собственной информации» для непрерывных статистических ансамблей не имеет смысла. Действительно, собственная информация в событии «u принадлежит δU» стремится к бесконечности, когда область δU стягивается точке u. Кроме того, в то время как средняя взаимная информация, определяемая (2.1-19), инвариантна относительно любых преобразований пространств U и V (с сохранением вероятностной меры), это не имеет место для энтропий, определяемых равенствами (2.1-23), (2.1-24), что связано с не инвариантностью входящих в их определения плотностей вероятностей.
Рассмотрим в качестве простого примера умножение объёма каждой области U и V на постоянную K: δU¹ = K·δU, δV¹ = K·δV , соответствующее равномерному растяжению двух пространств. Используя выражения (2.1-16), (2.1-4) и (2.1-13) получаем
p(u¹) = p(u)/K , p(u¹ | v¹) = p(u | v)/K ,
откуда следует, что
H (U¹) = H (U ) + log K , H (U¹ | V¹ ) = H (U | V ) + log K.
Таким образом, хотя сами энтропии не инвариантны при таком преобразовании пространств, их разность, являющаяся в соответствии с (2.1-22) средней взаимной информацией, остаётся, как и ожидалось, инвариантной.
2.2 Дискретизация информации *
Квантование по уровню.
В большинстве случаев, например, в системах связи, при проведении физического эксперимента, во многих технологических и даже бытовых (радио, телевидение и др.) процессах, информация представляется или передаётся с помощью различных сигналов, формируемыми и воспринимаемыми разнообразными устройствами. Прежде всего будем различать дискретные и непрерывные сигналы, для описания которых используются дискретные и непрерывные ансамбли, соответственно.
Непрерывные сигналы в системе обобщённых координат X, T описываются непрерывными функциями x(t). Переход от аналогового (непрерывного) представления сигнала к цифровому (дискретному), который даёт в ряде случаев значительные преимущества при передаче, хранении и обработке информации, связан с его дискретизацией по уровню X и по времени T. Кроме того, дискретизация по времени позволяет использовать одни и те же устройства (каналы связи, устройства обработки информации) для большого числа различных сигналов.
Преобразование непрерывного информационного множества аналоговых сигналов в дискретное называется дискретизацией или квантованием по уровню.
Квантование по уровню широко используется в системах связи, телеметрии, при автоматическом управлении, контроле, обработке данных и т. д. При таком квантовании диапазон возможных изменений функции – интервал (a , b) – разбивается на n интервалов квантования:
x0 = a, x1, . . . , xn–1, xn = b ; Δi = xi – xi – 1, i = 1, 2, 3, . . ., n. (2.2-1)
В результате квантования любое из значений x, принадлежащее интервалу(xi – 1 , xi ), округляется до некоторой величины = i· Δi, (xi – 1 , xi ).
Величины , i = 1, 2, ... , n носят название уровней квантования. Таким образом, при квантовании по уровню производится отображение непрерывного множества всевозможных значений величины x на дискретное множество, состоящее из величин – уровней квантования.
Такое отображение не может быть взаимно-однозначным (несравнимы мощности множеств). Замена истинных значений функции x соответствующими дискретными значениями-уровнями квантования , вносит ошибку, или шум, квантования
ξ (x) =– x (2.2-2)
что, как это будет показано позже, связано с потерей части информации.
Рассмотрим частный случай равномерного квантования по уровню, при котором интервалы (шаги) квантования одинаковы и в (2.2-1) следует положить
∀i Δi = Δ = (b – a)/n . (2.2-3)
Оценим ошибку квантования, начав с критерия наибольшего отклонения:
. (2.2-4)
При заданном n наибольшая ошибка квантования, задаваемая (2.2-4) минимальна, если Δi = Δ = const, т. е. выполняется (2.2-3) и уровень квантования выбирается в середине интервала: = ½( xi + xi – 1). В этом случае наибольшая ошибка квантования равна:
sup |ξ(x) | = 0,5 Δ . (2.2-5)
ξ
+Δ ⁄2
4Δ
3Δ x
2Δ
Δ –Δ ⁄2
x
0 Δ 2Δ 3Δ 4Δ
Рис. 2.2-1 Квантование по уровню
а) – функциональная зависимость б) – зависимость шума квантования
квантованной величины от от квантуемой величины
непрерывной
На рис. 2.2-1, а) показана функциональная связь непрерывной величины с дискретной (равномерное квантование), получаемой на выходе устройства квантования, а на б) – зависимость ошибки квантования от непрерывной величины x.
Рассмотрим статистические характеристики шума квантования. Ошибка равномерного квантования равна:
ξ (x) = i· Δ – x, (2.2-6)
причём
Δ·( i – ½) ≤ x ≤ Δ·( i + ½), (2.2-7)
где Δ – удвоенное, в соответствии с (2.2-5), наибольшее значение ошибки квантования.
При неограниченной шкале квантования (a = – ∞, b = ∞) представленная на рис. 2.2-1 зависимость ошибки квантования от квантуемой величины оказывается периодической функцией и может быть разложена в гармонический ряд:
ξ (x) = . (2.2-8)
Поскольку шум квантования, как случайная величина, функционально связан с непрерывной случайной величиной x, то его статистические характеристики будут зависеть от статистических характеристик этой величины. Математическое ожидание шума квантования
M [ξ (x)] = , (2.2-9)
где w(x) – плотность распределения величины x.
Из полученного соотношения следует, что M [ξ (x)] = 0, если математическое ожидание M [x] непрерывной величины x совпадает с серединой или границами интервала квантования, а плотность её распределения w(x) является чётной функцией относительно математического ожидания. Если такого совпадения нет, то M [ξ (x)] близко к нулю тогда, когда среднеквадратичное отклонение процесса велико по сравнению с шагом квантования:
σ = ≫ Δ . (2.2-10)
Данное условие имеет место, например, при достаточно большом числе уровней квантования (малом интервале квантования Δ).
Дисперсия шума квантования (в предположении его нулевого математического ожидания)
D [ξ(x)] = .
Опуская преобразования, приведём лишь окончательный результат:
D [ξ(x)] = , (2.2-11)
Так как сумма ряда 1/ k2 равна π2/6. Таким образом, дисперсия ошибки шума при большом числе уровней квантования практически не зависит от распределения непрерывной величины x. Слово «практически» здесь лишь подчёркивает тот факт, что реальное число уровней квантования хоть и велико, но конечно, а (2.2-11) получено в предположении их бесконечно большого числа, т. е. как предельное.
Поскольку, как правило, величина шага квантования достаточно мала и условие (2.2-10) – выполнено, плотность вероятности непрерывной величины x в интервале Δ можно считать равномерной.
Полученная выше дисперсия (2.2-11) действительно соответствует равномерному закону распределения в интервале от –Δ /2 до + Δ /2.
Среднеквадратичная ошибка квантования, равная σξ = Δ /(2∙√3) в √3 раз меньше максимальной ошибки.
Полученные результаты справедливы лишь для равномерного квантования. С точки зрения уменьшения среднеквадратичной ошибки выгоднее неравномерное квантование, причём выигрыш тем значительнее, чем более плотность распределения непрерывной величины отличается от равномерной. Тогда для более вероятных значений сигнала шаг квантования выбирается меньшим, а для менее вероятных – большим.
Дискретизация по времени и восстановление непрерывных функций.
При дискретизации по времени непрерывная по аргументу функция x(t) преобразуется в функцию x(t*) дискретного аргумента или отображается конечным числом некоторых величин (например, коэффициентов разложения).
В простейшем случае дискретизации по времени осуществляется путём взятия отсчётов функции в определённые моменты времени tk , k = 1, 2, … . В результате функция x(t) заменяется совокупностью мгновенных значений x(tk) , по которым можно восстановить исходную функцию с заданной точностью. Такую, полученную в результате восстановления функцию, называют воспроизводящей и обозначают через y(t).
Такая функция строится как взвешенная сумма некоторого ряда функций fi(t – tk):
y(t) = , (2.2-12)
причём коэффициенты разложения ai зависят от отсчётов tk, tk–1, … .
Очевидно, что дискретизация по времени должна производится так, чтобы по отсчётным значениям x(tk) (или коэффициентам разложения) можно было получить воспроизводящую функцию y(t) , которая с заданной точностью отображает исходную функцию x(t).
При дискретизации приходится решать вопрос о том, как часто необходимо производить отсчёты функции, т. е. каков должен быть шаг дискретизации ΔT = tk – tk–1 . При малых величинах ΔT количество отсчётов функции на отрезке [0, T] будет большим и точность воспроизведения – высокой. При больших ΔT количество отсчётов уменьшается, но при этом точность воспроизведения снижается . Оптимальной является такая дискретизация, которая обеспечивает представление исходной функции с заданной степенью точности минимальным количеством отсчётов x(tk). В этом случае все отсчёты существенны для восстановления исходной функции. При неоптимальной дискретизации производятся и избыточные отсчёты, а наличие избыточной информации при её передаче нежелательно, так как канал связи занимается на более длительное время, или требуется канал с большей пропускной способностью. Кроме того при хранении и обработке избыточной информации требуется дополнительная память и снижается скорость обработки основной информации.
Методы дискретизации и восстановления непрерывных функций различают по следующим основным признакам.
1. Регулярность отсчётов.
В соответствии с этим признаком можно выделить две основные группы методов дискретизации: равномерную и неравномерную.
При равномерной дискретизации функции x(t) на всём рассматриваемом диапазоне DT изменения аргумента интервал между отсчётами неизменен (ΔT = const). Величина этого интервала (шаг равномерной дискретизации) ΔT выбирается на основе априорных сведений о характеристиках сигнала.
Методы равномерной дискретизации характеризуются простым алгоритмом, при этом нет необходимости регистрировать время отсчётов, но из-за несоответствия интервала между отсчётами характеристикам дискретизируемого сообщения при отклонении последних от априорных возможна значительная избыточность отсчётов.
При неравномерной дискретизации интервал между отсчётами изменяется или случайно, или с учётом изменения характеристик сообщения (адаптивная дискретизация).
В зависимости от возможности изменения интервала между отсчётами τ j при адаптивной дискретизации можно выделить две группы методов:
а) метод с кратными интервалами, при котором τ j = i · ΔT , i = 1, 2, …, j = 0, 1, 2, … – дискретная величина;
б) метод с некратными интервалами, при котором τ min ≤ τ j ≤ τ max , τ j – непрерывная величина.
Методы адаптивной дискретизации характеризуются более сложными алгоритмами и устройствами дискретизации и восстановления, но позволяют значительно сокращать число избыточных отсчётов, что существенно для больших потоков информации.
2. Критерий выбора отсчётов и оценка точности воспроизведеня.
Группа критериев отбора отсчётов относится к таким моделям сигнала и таким способам его восстановления , что ошибку воспроизведения удаётся обратить в нуль или близкое к нулю значение:
а) частотный критерий Котельникова, при котором интервалы между отсчётами выбираются с учётом частотного спектра дискретизируемого сигнала;
б) корреляционный критерий (критерий Железнова), устанавливающий связь интервалов между отсчётами с интервалом корреляции сигнала;
в) квантовый критерий (критерий Темникова), применяемый для детерминированной модели сигнала и учитывающий зависимость интервалов между отсчётами от величины ступени квантования по уровню и крутизны (первой производной) сигнала.
Кроме того используются устройства, в которых интервал между отсчётами выбирается автоматически в зависимости от значений той или иной характеристики ошибки воспроизведения, которая в этом случае играет роль критерия. По такому критерию оценивается отклонение воспроизводимой функции y(t) от исходного сигнала x(t) на каждом из интервалов дискретизации τ j. Чаще других для этих целей применяются следующие критерии:
а) критерий наибольшего отклонения
,
б) среднеквадратичный критерий
в) интегральный критерий
г) вероятностно – зональный критерий
в правой части стоит вероятность выхода значения x(t) из зоны Si на интервале τj.
Следует отметить, что только критерий наибольшего отклонения обеспечивает возможность регистрации и индикации любых изменений функции, включая кратковременные импульсы.
3. Способ воспроизведения.
В соответствии со способом воспроизведения исходного сигнала методы дискретизации можно разделить на два класса: экстраполяционные и интерполяционные.
Методы дискретизации с экстраполяцией воспроизводящих функций не требуют задержки сигналов в пределах интервала дискретности и потому могут использоваться в системах, работающих в реальном масштабе времени (таковы, например, управляющие системы). Дискретизация с интерполяцией требует задержки сигналов на интервал интерполяции.
4. Вид воспроизводящих функций.
Подбор воспроизводящих функций y(t), которые при минимальном числе членов ряда разложения обеспечивали бы необходимую точность воспроизведения, в общем случае связан с определёнными трудностями. Априорные сведения о сигналах, подлежащих дискретизации, как правило, весьма ограничены. Поэтому выбор типа воспроизводящих функций в основном определяется требованиями ограничения сложности устройств дискретизации и восстановления сигналов.
Основные типы функций, употребляемых в качестве воспроизводящих: степенные полиномы; ортогональные полиномы Чебышева, Лежандра, Хаара, Уолша и др.; ряды Фурье, Котельникова и т. д. Требованию простоты нахождения коэффициентов разложения прежде всего отвечают степенные алгебраические полиномы. Наиболее полно из этого класса функций исследовано применение полиномов нулевой и первой степени. Использование в качестве воспроизводящих ортогональных систем функций, т. е. функций, для которых ∫xi(t)xk(t)dt = 0 при i ≠ k, также целесообразно в определённых случаях, так как для таких систем также относительно просто вычисляются коэффициенты разложения и вычисление их включает операцию интегрирования сигнала, что положительно сказывается на помехоустойчивости алгоритма дискретизации.
Следует отметить, что лишь при наличии значительной априорной информации о сигналах может решаться задача оптимального выбора конкретного узкого класса воспроизводящих функций. Так, например, если известно, что сигналы являются периодическими, то поиск следует направить в класс гармонических функций.
Лекция 3. Кодирование информации
3.1. Основные понятия и определения.
Цели кодирования; модель системы связи.
Рассматриваемые далее общие принципы кодирования информации справедливы как для систем, основная функция которых – передача информации в пространстве(системы связи), так и для систем, основная функция которых – передача информации во времени(системы хранения информации). В последних линией связи считается среда, в которой хранится информацию.
Под кодированием в широком смысле слова подразумевается представление сообщений в форме, удобной для передачи по данному каналу. Обратная операция называется декодированием.
Рассмотрим общую схему системы передачи информации, представленная на рис. 3.1-1
Сообщению z на выходе источ-
ника информации ИИ соответ-
z ствует определённый сигнал.
x Создать для каждого сообщения
свой сигнал практически невоз-
можно, т.к. их возможное число
стремится к бесконечности при
y возрастании времени. Но т. к.
u дискретные сообщения склады-
ваются из букв, а непрерывные
Рис. 3.1-1 Общая схема системы также возможно представить в
передачи информации виде последовательности цифр
в каждый момент отсчёта, возможно обойтись конечным числом типовых сигналов, соответствующих отдельным буквам алфавита источника.
При большом объёме алфавита часто прибегают к представлению букв в другом алфавите с меньшим числом букв, которые при этом называют символами. Для обозначения этой операции используется тот же термин кодирования, понимаемый теперь в узком смысле.
Поскольку алфавит символов меньше алфавита букв, то каждой букве соответствует некоторая последовательность символов, которую называют кодовой комбинацией. Число символов в кодовой комбинации называется её значностью.
В процессе преобразования букв сообщения в сигналы может преследоваться несколько целей. Первая из них заключается в том, чтобы преобразовать информацию в такую систему символов (код), чтобы она обеспечивала простоту и надежность аппаратуры информационных устройств и их эффективность. Это требование прстоту аппаратуры различения отдельных символов, минимальное время при передаче или минимальный объём запоминающего устройства при хранении, простоту выполнения в этой системе арифметических и логических действий. Статистические свойства источника сообщения и помех в канале связи при этом не принимаются во внимание. Техническая реализация процесса кодирования в таком простейшем виде при непрерывном входном сигнале может осуществляться аналого-кодовыми преобразователями.
Шеннон в своих основных теоремах обосновал эффективность введени в тракт кодирующих (а значит и декодирующих) устройств, цель которых – согласовать свойства источника сообщений со свойствами канала связи.
Так кодер источника КИ имеет целью обеспечит такое кодирование, при котором путём устранения избыточности существенно снижается среднее число символов, требующееся на букву сообщения. При отсутствии помех это непосредственно даёт выигрыш во времени передачи или в объёме запоминающего устройства, т. е. повышает эффективность системы. Поэтому такое кодирование получило название эффективного или оптимального.
При наличии помех в канале оно позволяет преобразовать входную информацию в последовательность символов, наилучшим образом (в смысле максимального сжатия) подготовленную для дальнейшего преобразования.
Второе кодирующее устройство (кодер канала КК) преследует цель обеспечить заданную достоверность при передаче или хранении информации путём дополнительного внесения избыточности, но уже по простым алгоритмам и с учётом интенсивности и статистических закономерностей помехи в канале связи. Такое кодирование называется помехоустойчивым.
Целесообразность устранения избыточности сообщения методами эффективного кодирования с последующим перекодированием помехоустойчивым кодом вызвана тем, что избыточность источника сообщения в большинстве случаев не согласована со статистическими закономерностями помехи в канале связи и поэтому не может быть полностью использована для повышения достоверности принимаемого сообщения, тогда как обычно можно подобрать подходящий помехоустойчивый код. Кроме того, избыточность источника сообщений часто является следствием весьма сложных вероятностных зависимостей и позволяет обнаружить и исправить ошибки только после декодирования всего сообщения, пользуясь сложнейшими алгоритмами и интуицией.
Итак, выбор кодирующих и декодирующих устройств зависит от статистических свойств источника сообщений, а также уровня и характера помех в канале связи. Если избыточность источника сообщения и помехи в канале связи практически отсутствуют, то введение как кодера источника, так и кодера канала нецелесообразно.
Когда избыточность источника сообщения высока, а помехи весьма малы, целесообразно введение кодера источника. Когда избыточность источника мала, а помехи велики, целесообразно введение кодера канала. При большой избыточности и высоком уровне помех целесообразно введение обоих дополнительных кодирующих (и декодирующих) устройств.
После кодера канала КК кодированный сигнал поступает в устройство кодирования символов сигналами – модулятор М . Получаемый на выходе модулятора сигнал x подготовлен к передаче по конкретной линии связи ЛС (либо к хранению в некотором запоминающем устройстве).
В линии связи на сигнал накладываются помехи (поступающие из условно показанного на рис. 3.1-1 источника помех ИП), так что в устройство декодирования сигналов в символы – демодулятор ДМ – из канала связи приходит сигнал y, искажённый шумом. Устройство декодирования помехоустойчивого кода – декодер канала ДК – и устройство декодирования сообщений – декодер источника ДИ – выдают декодированное сообщение u получателю П (человеку или машине).
Кодирование как процесс выражения информации в числовом виде
Большинство кодов, используемых при кодировании информации без учёта статистических свойств источника и помехи в канале связи, основано на системах счисления.
Любому дискретному сообщению или букве сообщения можно приписать какой-то порядковый номер. Измерение аналоговой величины, выражающееся в сравнении её с образцовыми мерами, тоже приводит к числовому представлению информации. Передача или хранение при этом сводится к передаче или хранению чисел. Числа можно выразить в какой-либо системе счисления и, таким образом, будет получен один из кодов, основанных на данной системе счисления.
Сравним системы счисления и построенные на их основе коды с позиций применения в системах передачи, хранения и преобразования информации.
Общепризнанным в настоящее время является позиционный принцип образования системы счисления. Значение каждого символа (цифры) зависит от его положения – позиции в ряду символов, представляющих число. Единица каждого следующего разряда больше единицы предыдущего разряда в m раз, где m – основание системы счисления. Полное число получаем, суммируя значения по разрядам:
Q = (3.1-1)
где i – номер разряда данного числа; l – количество разрядов; ai – множитель, принимающий любые целочисленные значения в пределах от 0 до m-1 и показывающий, сколько единиц i-го разряда содержится в числе.
Чем больше основание системы счисления, тем меньшее число разрядов требуется для представления данного числа, а следовательно, и меньшее время для его передачи. Однако с ростом основания существенно повышается требование к линии связи и аппаратуре создания и распознавания сигналов, соответствующих различным символам. Логические элементы вычислительных устройств в этом случае должны иметь большее число устойчивых состояний.
Учитывая оба обстоятельства, целесообразно выбрать систему, обеспечивающую минимум произведения количества различных символов m на количество разрядов l для выражения любого числа. Наиболее эффективной в этом смысле системой является троичная. Незначительно уступают ей двоичная и четверичная. Системы с основанием 10 и более существенно менее эффективны.
Сравнивая эти системы с точки зрения удобства физической реализации соответствующих им логических элементов и простоты выполнения в них арифметических и логических действий, предпочтение следует отдать двоичной системе. Действительно, логические элементы, соответствующие этой системе, должны иметь всего два устойчивых состояния. Задача различения сигналов сводится в этом случае к задаче обнаружения (есть импульс или его нет), что значительно проще. Арифметические и логические действия также наиболее просто осуществляются в двоичной системе:
Правила Правила Правила
сложения умножения сложения по модулю
0 + 0 = 0 1 + 1 = 10 0 · 0 = 0 1 · 1 = 1 0 0 = 0 1 1 = 0
1 + 0 = 1 0 + 1 = 1 0 · 1 = 0 1 · 0 = 0 0 1 = 1 1 0 = 1 .
Хотя двоичный код удобен при передаче информации, он не удобен при её вводе и выводе, так как даёт громоздкое и непривычное представление чисел. Поэтому, помимо двоичной, получили распространение системы, которые с одной стороны легко сводятся как к двоичной, так и к десятичной системам, а с другой – дают более компактную запись. К таким системам относятся восьмеричная, шестнадцатиричная и двоично-десятичная.
Преимущества двоичной и удобство десятичной систем сохраняют двоично-десятичные коды, в которых каждая цифра десятичного числа записывается в виде четырёхразрядного двоичного числа (тетрады). С помощью четырёх разрядов можно образовать 16 различных комбинаций, из которых любые 10 могут составить двоично-десятичный код. Наиболее удобным является взвешенный код 8-4-2-1 (цифры в названии кода означают вес единиц в соответствующих двоичных разрядов).
Среди кодов, отходящих от систем счисления, большое практическое значение имеют коды, у которых при переходе от одного числа к другому изменение происходит только в одном разряде. Большое распространение получил код Грэя, относящийся к разряду циклических или рефлексно-двоичных кодов. Этот код при аналого-кодовом преобразовании позволяет свести к единице младшего разряда ошибку неоднозначности при считывании.
3.2. Эффективное кодирование
Нижняя граница для средней длины кодового слова; кодовое
дерево для множества кодовых слов; неравенство Крафта
Рассмотрим ансамбль U из М сообщений u1, u2, ..., uk, ..., uM с соответствующими вероятностями P(uk). Каждое сообщение должно быть представлено посредством кодового слова, состоящего из последовательных символов, принадлежащих заданному алфавиту. Обозначим через D число различных символов в алфавите, через nk – число символов в кодовом слове, соответствующем сообщению uk . Среднее число символов на одно сообщение равно по определению
. (3.2-1)
Найдём нижнюю границу для . Энтропия H(U) ансамбля сообщений представляет собой среднее количество информации, необходимое для однозначного определения сообщения из этого ансамбля. При этом символы несут в среднем максимальное количество информации, равное log D, когда они равновероятны. Эта максимальная величина есть пропускная способность кодового алфавита. Кроме того, равенства (1.3-43) и (1.3-44) показывают, что статистическая зависимость некоторого символа от предыдущих не может увеличить среднее количество информации на этот символ. На этом основании можно заключить, что
· log D ≥ H(U) . (3.2-2)
Откуда получаем
, (3.2-3)
т. е. среднее число символов на сообщение не может быть меньше энтропии ансамбля сообщений, делённой на пропускную способность алфавита.
Рассуждения, использованные при получении этой нижней границы, дают возможность предложить общие правила конструирования кодовых слов со средней длиной, достаточно близкой к этой границе. Первое правило состоит в том, что в каждой из позиций кодового слова различные символы алфавита должны использоваться с равными вероятностями, чтобы максимизировать среднее количество информации, доставляемое ими. Второе правило состоит в том, что вероятности появления символов в каждой позиции кодового слова должны не зависеть от всех предыдущих символов. Если в точности следовать этим правилам, то средняя длина образуемых кодовых слов будет равна максимальной величине, определяемой формулой (3.2-3). Однако, только в специальных случаях символы могут использоваться с равными вероятностями и быть сделаны независимыми от всех предыдущих символов. Эти правила конструирования множества кодовых слов лучше всего пояснить на частных примерах. Отметим только, что используемая процедура кодирования подобна процедуре, впервые предложенной Шенноном.
Сообщения Кодовые слова
u1 000
--------------------------------------------
u2 001
--------------------------------------
u3 010
--------------------------------------------
2-е u4 011 3-е
разбиение 1-е разбиение ----------------------------------- разбиение
u5 100
--------------------------------------------
u6 101
-------------------------------------
u7 110
--------------------------------------------
u8 111
Рис. 3.2-1. Оптимальное множество кодовых слов для
равновероятных сообщений
Рассмотрим множество из восьми равновероятных сообщений, показанных на рис.3.2-1. первый шаг при кодировании сообщений состоит в том, что мы разбиваем это множество на две равновероятные группы и принимаем, что первый символ кодовых слов есть ноль для сообщений первой группы и единица – для второй. То есть, вероятность того, что первым символом будет 0, в точности рана вероятности того, что первым символом будет 1.
При решении вопроса о втором символе следует иметь в виду, что он должен быть статистически независимым от первого. Это означает, что вероятность появления 0 в качестве второго символа должна остаться неизменной независимо от того, будет ли первым символом 0 или 1; то же самое должно иметь место и для 1. Таким образом, второй шаг состоит в разбиении каждой из групп, образованных на первом шаге, на две равновероятные подгруппы, как это показано на рис. 3.2-1 линиями, соответствующими надписи «2-е разбиение». Затем для каждой группы 0 приписывается сообщениям первой подгруппы и 1 – сообщениям второй подгруппы. Ясно, что четыре образованные подгруппы будут равновероятны.
Третий, последний шаг подобен второму. Каждая из полученных четырёх подгрупп снова разбивается на две равновероятные части (каждая из которых, в данном случае, состоит из единственного сообщения), отмеченные на рис. 3.2-1 линиями, соответствующими надписи «3-е разбиение». В каждой из этих подгрупп одному сообщению приписывается 0 в качестве третьего символа, а другому 1. Опять таки эта процедура обеспечивает то, что третий символ будет статистически не зависеть от двух предыдущих и что 0 и 1 будут появляться с равными вероятностями.
Поскольку число сообщений М = 8 и они равновероятны, то энтропия ансамбля максимальна и равна Н(U) = log2 M = 3 бит. Алфавит в данном случае – двоичный, т. е. D = 2 и пропускная способность алфавита log2D = 1 бит. Таким образом, минимальное среднее число символов на сообщение равно 3, что совпадает с числом символов в кодовых словах этого примера.
Рассмотрим теперь ансамбль сообщений, представленный в табл. 3.1-1. Вероятности сообщений больше не равны друг другу, но всё ещё равны отрицательным степеням 2. Кодовые слова, показанные на этом рисунке, построены опять путём последовательного подразбиения ансамбля на равновероятные группы и подгруппы. В этом случае, однако, группы и подгруппы содержат неодинаковое число сообщений, а кодовые слова не имеют одного и того же числа знаков. Это следует из того факта, что сообщения, имеющие вероятность 0,25, выделяются двумя последовательными разбиениями ансам-
бля сообщений на равновероятные группы, в то время как сообщения, имею-
Сообщения.
Вероятности.
Кодовые слова
u1
u2
u3
u4
u5
u6
u7
u8
0,25
0,25
0,125
0,125
0,0625
0,0625
0,0625
0,0625
00
01
100
101
1100
1101
1110
1111
Табл. 3.2-1. Оптимальное множество кодовых слов
щие вероятность 0,0625, выделяются только после четырёх последовательных разбиений на равновероятные группы. В этом примере возможно сделать все группы и подгруппы точно равновероятными, а все символы статистически независимыми от предыдущих, так как все вероятности сообщений выражены отрицательными степенями 2.
Поскольку каждый символ, 0 или 1, появляется с вероятностью ½ , он может внести одну двоичную единицу информации относительно соответствующего сообщения, что и вносится фактически, так как рассматриваемый символ однозначно определяется соответствующим сообщением. Отсюда следует, что число символов nk в каждом кодовом слове должно равняться собственной информации соответствующего сообщения. Но тогда среднее число двоичных символов на сообщение должно равняться энтропии ансамбля сообщений, т. е. минимальной величине, определяемой (3.2-3). Энтропия и среднее число символов, в данном случае, равны 2,75. Такой, предложенный Р. Фано, подход к кодированию статистически независимых сообщений, является более эффективным по сравнению с кодом Шеннона.
Этот метод построения кодовых слов можно легко обобщить на случай произвольного алфавита из D символов путём последовательного подразбиения ансамбля сообщений не на две, а на D равновероятных групп и подгрупп. Ясно, с другой стороны, что этот метод может оказаться успешным, только когда вероятности сообщений являются отрицательными степенями D. Если вероятности сообщений не являются отрицательными степенями D, то последовательные группы и подгруппы могут быть равновероятными не в точности, а лишь приближённо, и среднее число символов на сообщение не может быть сделано равным минимальной величине, определяемой выражением (3.2-3).
Весьма наглядное графическое изображение множества кодовых слов можно получить, установив соответствие между кодовыми словами, т. е. сообщениями, и концевыми узлами дерева. Дерево, соответствующее множеству кодовых слов рис. 3.2-2, изображено на рис. 3.2-3. Две ветви, ведущие от корня дерева к узлам первого порядка, соответствуют выбору между нулём и единицей в качестве первого символа кодового слова – левая ветвь соответствует 0, а правая ветвь -1. Две ветви, идущие от каждого из узлов первого порядка, соответствуют второму символу кодовых слов, левая ветвь опять-таки обозначена 0, а правая 1. Тоже самое правило применяется к узлам более высокого порядка. Ясно, что последовательные символы каждого кодового сло ва определяют необходимые правила продвижения от корня дерева до концевого узла, соответствующего рассматриваемому сообщению.
Промежуточным узлам так же можно формально приписать кодовые слова, но они не могут быть использованы для представления сообщений, что можно объяснить следующим образом. Если рассматривать кодовое сло-
Узлы 4-го порядка 1100 1101 1110 1111
• • • •
Узлы 3-го порядка 100 101
• •
Узлы 2-го порядка 00 01
• •
Узлы 1-го порядка 0 1
Рис. 3.2-2. Дерево, соответствующее множеству двоичных кодовых слов,
изображённых в табл. 3.1-1
во как совокупность указаний для достижения узла, соответствующего некоторому сообщению, то эти указания для промежуточного узла, помимо команд «повернуть налево» (0) и «повернуть направо» (1), должны ещё содержать команду «остановиться здесь». Тогда для такого узла нужно использовать троичный алфавит, что противоречит первоначальным предположениям.
Требование сопоставлять сообщениям только концевые узлы, при рассматриваемом способе кодирования, эквивалентно требованию, чтобы ни одно из кодовых слов не совпало с началом (префиксом) какого-либо более длинного кодового слова. При невыполнении такого условия невозможно, вообще говоря, однозначно разбить последовательность символов на последовательность сообщений при их непрерывной передаче.
Необходимо также заметить, что возможны другие способы кодирования, для которых сформулированное требование не верно при сохранении однозначности разбиения последовательности символов на последовательность сообщений, но эти способы не относятся к числу наилучших.
Требование представления сообщений концевыми вершинами приводит к важной теореме о длинах кодовых слов для данного множества сообщений. Пусть D – число символов в кодовом алфавите, n1, n2, ..., nM – заданное множество M целых положительных чисел.
Т е о р е м а 3.2-1. Неравевенство
(3.2-4)
является необходимым и достаточным условием существования кодовых слов, соответствующих концевым узлам дерева с длинами, равными nk.
Д о к а з а т е л ь с т в о. Необходимость. Так как кодовый алфавит состоит из D символов, то из каждого узла дерева исходит не более D ветвей, т. е. может быть не более Dn узлов порядка n; это максимальное число получается тогда, когда D ветвей разветвляется из каждого узла порядка, меньшего чем n. С другой стороны, наличие концевого узла порядка nk (не большего, чем n) исключает возможных узлов порядка n. Таким образом, длины кодовых слов, совпадающих с порядками концевых узлов, должны удовлетворять неравенству
(3.2-5)
для всех целых n, не меньших наибольшего nk. Деля это неравенство на Dn получаем неравенство Крафта (3.2-4).
Достаточность. Предположим, что индексы k расположены в порядке возрастания длин кодовых слов, так что для любого k nk ≤ nk+1. Если дерево, содержащее все заданные концевые узлы порядка m, должно содержать wm концевых узлов порядка m, то согласно неравенству (3.2-4)
,
откуда, после умножения на Dm, получаем
. (3.2-6)
Второй член в правой части этого неравенства представляет собой число узлов, исключаемых из-за наличия концевых узлов порядка меньше m. Тогда, число доступных (accessibly) узлов порядка m равно
. (3.2-7)
Отсюда следует, что число доступных узлов порядка m не меньше заданного числа концевых узлов того же порядка (≤), а потому все они могут быть включены в дерево. Поскольку это справедливо для всех целых m, то из этог следует, что дерево с требуемыми концевыми узлами всегда может быть построено шаг за шагом, если только выполнено неравенство (3.2-4).
Ч. Т. Д.
Итак, неравенство (3.2-4) является необходимым и достаточным условием существования кодового дерева, содержащего M концевых узлов порядка n1, n2, ..., nM, причём это дерево может ещё иметь добавочные концевые узлы. Заданное множество концевых узлов называется полным, если существует дерево, имеющее только эти концевые узлы, т.е. другими словами, если заданное множество узлов целиком заполняет дерево.
Т е о р е м а 3.2-2. Равенство в неравенстве Крафта выполняется тогда и только тогда, когда заданное множество концевых узлов является полным.
Д о к а з а т е л ь с т в о. Следует из доказательства теоремы 3.2-1.
Т е о р е м а 3.2-3. Равенство
M = ν(D – 1) + 1, (3.2-8)
где ν – целое положительное число, является необходимым и достаточным условием существования дерева с полным множеством из M концевых узлов.
Д о к а з а т е л ь с т в о. Необходимость можно доказать подсчётом концевых узлов полного дерева, т. е. дерева, в котором имеется в точности D ветвей, разветвляющихся из каждого промежуточного узла. Обозначим через Mi число имеющихся в дереве свободных узлов, когда оно построено вплоть до порядка i, а через mi – число промежуточных узлов
порядка i. Число узлов первого порядка
M1 = D = 1 + (D – 1). (3.2-9)
Каждый из m1 промежуточных узлов первого порядка порождает D узлов второго порядка. Следовательно, общее число свободных узлов после построения дерева вплоть до узлов второго порядка равно M2 = M1 + m1(D – 1). Вообще
Mi+1 = Mi + mi(D – 1), (3.2-10)
откуда, с использованием (3.2-9), получается следующее выражение для общего числа доступных узлов на дереве
M = 1 + (D – 1), (3.2-11)
где – наивысший порядок концевого узла из заданного множества. Так как выражение в квадратных скобках является суммой целых чисел, то число доступных концевых вершин удовлетворяет равенству (3.2-8).
Достаточность теоремы следует из того, что для любого числа M, удовлетворяющего условию (3.2-8), существует дерево, имеющее точно M концевых вершин. В свою очередь, это выполняется, если существуют целое и множество целых mi (i < nM), для которых выражение в квадратных скобках правой части (3.2-11) равно целому ν в равенстве (3.2-8). Целые числа mi должны удовлетворять лишь ограничению
0 < mi ≤ Dmi -1; i < nM . (3.2-12)
Так как на не накладывается никаких ограничений, то всегда можно выбрать mi, так чтобы удовлетворить поставленным требованиям. Очевидно, целое число на единицу больше наибольшего i, для которого mi ≠ 0.
Ч. Т. Д.
Важно заметить, что для D = 2 равенство (3.2-8) удовлетворяется при любом целом M. Иными словами, полные двоичные деревья можно построить для произвольного числа концевых узлов, что не верно, когда D не равно 2.
Основная теорема кодирования.
Следующая основная теорема даёт непосредственную практическую интерпретацию энтропии ансамбля сообщений.
Т е о р е м а 3.2-4. При заданном ансамбле U из M сообщений с энтропией H(U) и алфавитом, состоящем из D символов, возможно так закодировать сообщения ансамбля посредством последовательностей символов, принадлежащих заданному алфавиту, что среднее число символов на сообщение удовлетворяет неравенству
. (3.2-14)
Число не может быть сделано меньше нижней границы в (3.2-14).
Д о к а з а т е л ь с т в о. Вывод нижней границы в (3.2-14).
Пусть P(uk) – вероятность появления события uk, а nk – число символов в кодовом слове, соответствующем сообщению uk . Тогда среднее число символов на сообщение равно
.
Предположим, что кодирование удовлетворяет условиям теоремы 3.2-1, т.е. nk удовлетворяет условию (3.2-4). Введём обозначение , откуда . Тогда используя соотношения (1.3-31) и (3.2-4) получаем
≤
≤ , (3.2-15)
откуда следует левая часть неравенства (3.2-14) (нижняя граница).
Вывод верхней границы в (3.2-14).
Знак равенства в (3.2-15) имеет место тогда и только тогда, когда имеет место знак равенства в выражении (1.3-31). В этом частном случае и потому выполняется знак равенства в неравенстве Крафта (3.2-4). При этом
. (3.2-16)
Правая часть в (3.2-16) в общем случае не обязательно целое число. С другой стороны, должно быть целым, так как оно является числом символов в кодовом слове, соответствующем сообщению uk. Поэтому можно выбрать число равным наименьшему целому числу, большему, чем правая часть (3.2-16). То есть числа определяются соотношением
, (3.2-17)
усредняя которое по ансамблю сообщений, получаем (3.2-14).
Ч. Т. Д.
Рассмотренная теорема, в случае двоичного алфавита, устанавливает, что среднее число двоичных единиц, требуемых для представления сообщения из данного ансамбля U, не меньше энтропии данного ансамбля H(U) и может превосходить её не более чем на единицу. При условии H(U) ≫ 1, энтропия ансамбля является хорошей оценкой (в смысле малости относительной погрешности) среднего числа двоичных символов, требуемых для кодирования сообщений этого ансамбля.
До сих пор предполагалось, что последовательные сообщения кодируются раздельно как элементы ансамбля возможных выходных сообщений. Однако иногда оказывается возможным уменьшить среднее число символов на сообщение за счет рассмотрения последовательностей сообщений. Рассмотрим наиболее простой случай последовательности статистически независимых сообщений, появляющихся с фиксированными вероятностями.
Пусть M – число различных сообщений ансамбля U. Если разделить порождаемую источником последовательность сообщений на последовательные отрезки длиной по ν сообщений, то каждая такая последовательность из ν сообщений оказывается элементом произведения ансамблей , образованного возможными последовательностями из ν сообщений. Поскольку каждое сообщение, по предположению, статистически независимо от всех предыдущих сообщений, то энтропия произведения ансамблей связана энтропией ансамбля U соотношением
H() = ν H(U). (3.2-18)
Для элементов произведения ансамблей построим кодовые слова с длинами, удовлетворяющими неравенству Крафта (3.2-4). Если обозначить среднее число на кодовое слово, то, поскольку каждое кодовое слово представляет последовательность сообщений, среднее число символов на сообщение вычисляется по формуле
. (3.2-19)
Т е о р е м а 3.2-5. Для любого заданного сколь угодно малого положительного числа ε можно найти натуральное число ν и соответствующее множество кодовых слов, такое, что среднее число символов на сообщение удовлетворяет неравенству
(3.2-20)
И наоборот, невозможно найти натуральное число ν и соответствующее множество кодовых слов, такое, что
(3.2-21)
Д о к а з а т е л ь с т в о. Теорема непосредственно вытекает из основной теоремы кодирования (3.2-4). Подставляя в (3.2-14) вместо , H() вместо H(U) и используя (3.2-18), получаем
,
а после деления на ν, с учётом (3.2-19),
. (3.2-22)
Из этого соотношения следует неравенство (3.2-20), если положить , и наоборот, неравенство (3.2-21) несовместимо с неравенством (3.2-22).
Ч. Т. Д.
Таким образом, когда каждое сообщение статистически независимо от всех предыдущих сообщений, то кодирование последовательности сообщений вместо отдельных сообщений может уменьшить среднее число символов на сообщение не более чем на один символ.
Методы кодирования по Шеннону и Фано; оптимальное кодирование
по Хафману.
Примеры, рассмотренные в первом разделе § 3.2, иллюстрируют методы кодирования по Шеннону – равные вероятности для всех сообщений ансамбля; кодовые слова одинаковой длины, и Фано – сообщения ансамбля имеют разные вероятности, а кодовые слова строятся на основе разбиения ансамбля сообщений на рвновероятные группы и подгруппы, что сокращает среднюю длину кодового слова. Метод кодирования по Фано приводит обычно к получению довольно хорошего множества кодовых слов, однако не обязательно оптимального.
Систематический метод, предложенный Хафманом, всегда приводит к получению оптимального множества кодовых слов в том смысле, что никакое другое множество не имеет меньшего среднего числа символов на сообщение.
Рассмотрим ансамбль U из М сообщений u1, u2, ..., uk, ..., uM , появляющихся с вероятностями P(uk), k = 1, 2, …, M, и алфавит, состоящий из D символов. Тогда следующая последовательность действий приводит к получению оптимального множества кодовых слов.
1– й шаг. М сообщений располагаются в порядке в порядке убывания вероятностей, как показано на рис. 3.2-3 и рис. 3.2-4.
2 – й шаг. Пусть m0 – целое число, удовлетворяющее двум требованиям:
2 ≤ m0 ≤ D, a > 0 – целое число. (3.2-23)
Очевидно m0 = 2 при D = 2. Группируется вместе m0 сообщений, имеющих наименьшие вероятности, и вычисляется общая вероятность такого подмножества событий.
---0,55—1---
Кодовые Сооб- •---1,0
слова щения P(uk) --0,45-------------0---
-------- -------- ------ ---0,30----1--
•----
10 u1 0,25-----------------------------------0--
01 u2 0,25-------------------------1--
•----
00 u3 0,20-------------------------0--
111 u4 0,15----------------1--
•----
1101 u5 0,10 ---1--
•--0,15-0--
1110 u6 0,05 ---0--
Рис. 3.2-3. Оптимальное множество двоичных кодовых слов.
Кодовые Сооб-
слова щения P(uk)
-------- -------- ------ --0,5---2---
1 u1 0,25----------------------------------1---•------1,0
0 u2 0,25----------------------------------0---
22 u3 0,20----------------2----
21 u4 0,15----------------1---•---
201 u5 0,10 ---1--
•--0,15--0--
200 u6 0,05 ---0--
Рис. 3.2-4. Оптимальное множество троичных кодовых слов.
3 – й шаг. Из первоначального ансамбля сообщений образуем вспомогательный ансамбль, рассматривая подмножество из m0 сообщений, образованное на втором шаге, как отдельное сообщение с вероятностью, равной вероятности всего подмножества. Вновь располагаем сообщения этого вспомогательного ансамбля в порядке убывания вероятностей, как это представлено на рис. 3.2-3 и рис. 3.2-4.
4 – й шаг. Образуем подмножество из D сообщений вспомогательного ансамбля, имеющих наименьшие вероятности, и вычисляем их общую вероятность.
5 – й шаг. Из первого вспомогательного ансамбля образуем второй вспомогательный ансамбль, рассматривая подмножество из D сообщений, образованное на четвёртом шаге, как отдельное сообщение с вероятностью, равной вероятности всего подмножества. Располагаем сообщения этого второго вспомогательного ансамбля в порядке убывания вероятностей.
6 – й шаг. Повторяя 4-й и 5-й шаги, образуем последовательность вспомогательных ансамблей до тех пор, пока в ансамбле не останется единственное сообщение с вероятностью единица.
7 – й шаг. Проводя линии, соединяющие сообщения, образующие последовательные подмножества, получаем дерево, в котором отдельные сообщения являются концевыми узлами. Соответствующие им кодовые слова можно построить, приписывая различные символы из заданного алфавита ветвям, исходящим из каждого промежуточного узла, как это показано на рис. 3.2-3 и рис. 3.2-4. Только один промежуточный узел может иметь меньше чем D ветвей – это узел, образованный на 2-м шаге, и только если D ≠ 2.
Так как при этом процессе сообщения сопоставляются только концевым узлам, то он приводит к образованию кодовых слов, удовлетворяющих требованию, что никакое слово не является началом более длинного.
Полученное таким образом множество кодовых слов – оптимально в том смысле, что не существует множества кодовых слов с меньшим средним числом символов на сообщение , определяемое соотношением (3.2-1).
Множество кодовых слов с наименьшим возможным значением должно удовлетворять следующим необходимым условиям.
У с л о в и е 1. Сообщениям с меньшей вероятностью должны быть сопоставлены кодовые слова большей длины, т. е. при
. (3.2-24)
Это условие необходимо, так как иначе можно было бы уменьшить меня местами кодовые слова, соответствующие сообщениям uk и uj .
Арифметическое кодирование
Алгоритм кодирования Хаффмана не может передавать на каждый символ сообщения менее одного бита информации. Пусть в сообщении, состоящем из нулей и единиц, единицы встречаются в 10 раз чаще нулей. При кодировании методом Хаффмана и на 0 и на 1 придется тратить не менее одного бита. Но энтропия дискретной случайной величины (с.в.), генерирующей такие сообщения ≈0.469 бит/сим. Неблочный метод Хаффмана даёт для минимального среднего количества бит на один символ сообщения значение 1 бит. Хотелось бы иметь такую схему кодирования, которая позволяла бы кодировать некоторые символы менее чем одним битом. Одной из лучших среди таких схем является арифметическое кодирование, разработанное в 70-х годах XX века.
По исходному распределению вероятностей для выбранной для кодирования дискретной случайной величины строится таблица, состоящая из пересекающихся только в граничных точках отрезков для каждого из значений этой дискретной случайной величины; объединение этих отрезков должно образовывать отрезок , а их длины должны быть пропорциональны вероятностям соответствующих значений дискретной случайной величины. Алгоритм кодирования заключается в построении отрезка, однозначно определяющего данную последовательность значений дискретной спучайной величины. Затем, для построенного отрезка находится число, принадлежащее его внутренней части и равное целому числу, деленному на минимально возможную положительную целую степень двойки. Это число и будет кодом для рассматриваемой последовательности. Все возможные конкретные коды - это числа строго большие нуля и строго меньшие одного, поэтому можно отбрасывать лидирующий ноль и десятичную точку, но нужен ещё один специальный код-маркер, сигнализирующий о конце сообщения. Отрезки строятся так. Если имеется отрезок для сообщения длины , то для построения отрезка для сообщения длины , разбиваем его на столько же частей, сколько значений имеет рассматриваемая случайная величина. Это разбиение делается совершенно также как и самое первое (с сохранением порядка). Затем выбирается из полученных отрезков тот, который соответствует заданной конкретной последовательности длины .
Принципиальное отличие этого кодирования от рассмотренных ранее методов в его непрерывности, т.е. в ненужности блокирования. Код здесь строится не для отдельных значений дискретной случайной величины или их групп фиксированного размера, а для всего предшествующего сообщения в целом. Эффективность арифметического кодирования растёт с длиной сжимаемого сообщения (для кодирования Хаффмана или Шеннона-Фано этого не происходит). Хотя арифметическое кодирование даёт обычно лучшее сжатие, чем кодирование Хаффмана, но при этом требует больших вычислительных ресурсов.
При сжатии заданных данных, например, из файла все рассмотренные методы требуют двух проходов. Первый для сбора частот символов, используемых как приближенные значения вероятностей символов, и второй для собственно сжатия.
Пример арифметического кодирования. Пусть дискретная с.в. может принимать только два значения 0 и 1 с вероятностями 2/3 и 1/3 соответственно. Сопоставим значению 0 отрезок , а 1 - . Тогда для случайной величины. ,
Среднее количество бит на единицу сообщения для арифметического кодирования получилось меньше, чем энтропия. Это связано с тем, что в рас-
смотренной простейшей схеме кодирования, не описан код-маркер конца со-
Интервалы и коды
Вероятность
Код Хафмана
0000
0001
010
001
011
100
101
11
Табл. 3.2-2. Таблица построения кодов (арифметического и Хафмана)
общения, введение которого неминуемо сделает это среднее количество бит большим энтропии.
Получение исходного сообщения из его арифметического кода происходит по следующему алгоритму.
Шаг 1. В таблице для кодирования значений дискретной случайнрй величины определяется интервал, содержащий текущий код, - по этому интервалу однозначно определяется один символ исходного сообщения. Если этот символ - это маркер конца сообщения, то конец.
Шаг 2. Из текущего кода вычитается нижняя граница содержащего его интервала, полученная разность делится на длину этого же интервала. Полученное число считается новым текущим значением кода. Переход к шагу 1.
Рассмотрим, например, распаковку сообщения 111. Этому сообщению соответствует число , что означает, что первый знак декодируемого сообщения - это 1. Далее от вычитается и результат делится на , что даёт , что означает, что следующий знак - 0. Теперь, вычислив , получим следующий знак - 1, т.е. все исходное сообщение 101 декодировано. Однако, из-за того, что условие остановки не определенно, алгоритм декодирования здесь не остановится и получит «следующий символ» 1 и т.д.
Адаптивные алгоритмы сжатия информации.
а. Адаптивное кодирование Хаффмана
Является практичным, однопроходным, не требующим передачи таблицы кодов. Его суть в использовании адаптивного алгоритма, т.е. алгоритма, который при каждом сопоставлении символу кода, кроме того, изменяет внутренний ход вычислений так, что в следующий раз этому же символу может быть сопоставлен другой код, т.е. происходит адаптация алгоритма к поступающим для кодирования символам. При декодировании происходит аналогичный процесс.
В начале работы алгоритма дерево кодирования содержит только один специальный символ, всегда имеющий частоту 0. Он необходим для занесения в дерево новых символов: после него код символа передается непосредственно. Обычно такой символ называют escape-символом, .
Расширенный ASCII кодируют каждый символ 8-битным числом, т.е. числом от 0 до 255. При построении дерева кодирования необходимо для возможности правильного декодирования как-то упорядочивать структуру дерева. Расположим листья дерева в порядке возрастания частот и затем в порядке возрастания стандартных кодов символов. Узлы собираются слева направо без пропусков. Левые ветви помечаются 0, а правые - 1.
Рассмотрим процесс построения кодов по адаптивному алгоритму Хаффмана для сообщения ACCBCAAABC, которое соответствует выборке 10-и значений дикретной с.в. из 2-го примера на построение неадаптивного кода Хаффмана (рис. 3.2-5 и табл. 3.2-3):
Здесь . Если не использовать сжатия, то . Для рассматриваемой случайной величины ранее были получены значения и .
входные
данные
код
длина
кода
№
дерева
A
‘A’
8
1
C
0’C’
9
2
C
1
1
3
B
00’B’
10
4
C
1
1
5
A
001
3
6
A
01
2
7
A
01
2
8
B
001
3
9
C
01
2
Рис. 3. 2-5.
Табл. 3.2-3 Пример построения кода по адаптивному алгоритму Хафмана
С ростом длины сообщения среднее количество бит на символ сообщения при адаптивном алгоритме кодирования будет мало отличаться от значения, полученного при использовании неадаптивного метода Хаффмана или
Шеннона-Фано, т.к. алфавит символов ограничен и полный код каждого символа нужно передавать только один раз.
Теперь рассмотрим процесс декодирования сообщения 'A'0'C'100'B'1001010100101. Здесь и далее символ в апостофах означает восемь бит, представляющих собой запись двоичного числа, номера символа, в таблице ASCII+. В начале декодирования дерево Хаффмана содержит только escape-символ с частотой 0. С раскодированием каждого нового символа дерево заново перестраивается. (Табл. 3.2-4)
Выбранный способ адаптации алгоритма очень неэффективный, т.к. после обработки каждого символа нужно перестраивать все дерево кодирования. Существуют гораздо менее трудоёмкие способы, при которых не нужно перестраивать все дерево, а нужно лишь незначительно изменять.
Входные данные
символ
№ дерева
‘A’
A
1
0’C’
C
2
1
C
3
00’B’
B
4
…
…
…
Табл. 3.2-4. Таблица декодирования
Бинарное дерево называется упорядоченным, если его узлы могут быть перечислены в порядке неубывания веса; в этом перечне узлы, имеющие общего родителя, должны находиться рядом, на одном ярусе. Причем перечисление должно идти по ярусам снизу-вверх и слева - направо в каждом ярусе.
На рис. 3.2-6 приведён пример упорядоченного дерева Хаффмана.
Рис. 3. 2-6. Упорядоченное дерево Хаффмана
Если дерево кодирования упорядоченно, то при изменении веса существующего узла дерево не нужно целиком перестраивать - в нём достаточно лишь поменять местами два узла: узел, вес которого нарушил упорядоченность, и последний из следующих за ним узлов меньшего веса. После перемены мест узлов необходимо пересчитать веса всех их узлов-предков.
Например, если в дереве на рис. 3.2-6 добавить еще две буквы A, то узлы A и D должны поменяться местами (см. рис. 3.2-7).
Рис. 3.2-7.
Если добавить еще две буквы A, то необходимо будет поменять местами сначала узел A и узел, родительский для узлов D и B, а затем узел E и узел-
Рис. 3.2-8.
брат E (рис.3.2-8).
Дерево нужно перестраивать только при появлении в нем нового узла-листа. Вместо полной перестройки можно добавлять новый лист справа к листу и упорядочить, если надо, полученное таким образом дерево.
Процесс работы адаптивного алгоритма Хаффмана с упорядоченным деревом можно изобразить следующей схемой (рис. 3.2-9 и табл. 3.2-5):
входные
данные
код
длина
кода
№
дерева
A
‘A’
8
1
C
0’C’
9
2
C
1
1
3
B
00’B’
10
4
C
1
1
5
A
001
3
6
A
01
2
7
A
01
2
8
B
001
3
9
C
01
2
Рис. 3.2-9. Схема работы адаптивного алгоритма Хаффмана
с упорядоченным деревом
b. Адаптивное арифметическое кодирование
Для арифметического кодирования, как и для кодирования методом Хаффмана, существуют адаптивные алгоритмы. Реализация одного из них запатентована фирмой IBM.
Построение арифметического кода для последовательности символов из заданного множества можно реализовать следующим алгоритмом. Каждому символу сопоставляется его вес: вначале он для всех равен 1. Все символы располагаются в естественном порядке, например, по возрастанию. Вероятность каждого символа устанавливается равной его весу, делённому на суммарный вес всех символов. После получения очередного символа и постройки интервала для него, вес этого символа увеличивается на 1 (можно увеличивать вес любым регулярным способом).
Заданное множество символов - это, как правило, ASCII+. Для того, чтобы обеспечить остановку алгоритма распаковки вначале сжимаемого сообщения надо поставить его длину или ввести дополнительный символ-маркер конца сообщения. Если знать формат файла для сжатия, то вместо начального рав- номерного распределения весов можно выбрать распределение с учётом этих знаний. Например, в текстовом файле недопустимы ряд управляющих символов и их вес можно обнулить.
Пример 3,2-1: заданное множество – символы A, B, C; сжимаемое сообщение – ACCBCAAABC. Введем маркер конца сообщения - E. Кодирование, в духе приведенного алгоритма, можно провести по следующей схеме (рис.3.2-10).
Вследствие того, что
и
Поэтому . Результат, полученный адаптивным алгоритмом Хаффмана - 4.1 бит/сим, но если кодировать буквы не 8
Рис. 3.2-10. Пример адаптивного арифметического кодирования.
битами, а 2, то результат будет 2.3 бит/сим. В первой строчке схемы выписаны суммарные веса символов, а во второй - длины текущих отрезков.
Способы распаковки адаптивного и неадаптивного арифметического кода почти аналогичны. Отличие только в том, что на втором шаге после получения нового кода нужно перестроить разбиение единичного отрезка согласно новому распределению весов символов. Получение маркера конца или заданного началом сообщения числа символов означает окончание работы.
Веса
Число-код и его интервал
Символ
Длина
интервала
A
B
C
E
1
1
1
1
A
2
1
1
1
C
2
1
2
1
C
2
1
3
1
B
2
2
3
1
C
2
2
4
1
A
3
2
4
1
A
4
2
4
1
A
5
2
4
1
B
5
3
4
1
C
5
3
5
1
E
Табл. 3.2-5. Пример адаптивного арифметического декодирования.
Пример 3.2-2. Распакуем код 0010111001010011101101, где множество символов сообщения состоит из A, B, C и E - это маркер конца сообщения:
3.3* Помехоустойчивое кодирование(*)
Теория помехоустойчивого кодирования базируется на сформулированной Шенноном основной теоремы для дискретного канала с шумом: при любой скорости передачи двоичных символов, меньшей, чем пропускная способность канала, существует такой код, при котором вероятность ошибочного декодирования будет сколь угодно мала; вероятность ошибки не может быть сделана произвольно малой, если скорость передачи больше пропускной способности канала.
В теореме не затрагивается вопрос о путях построения кода, обеспечивающего указанную идеальную передачу, однако её главное значение в том, что она обосновывает принципиальную возможность такого кодирования.
Кодирование должно осуществляться так, чтобы сигнал, соответствующий принятой последовательности символов, после воздействия на него предполагаемой в канале помехи, оставался ближе к сигналу, соответствующему данной переданной последовательности символов, чем к сигналам, соответствующим другим возможным последовательностям. Это достигается за счёт введения при кодировании избыточности, которая позволяет наложить на передаваемые последовательности символов дополнительные условия, проверка которых на приёмной стороне даёт возможность обнаруживать и исправлять ошибки.
Все применяемые коды делятся на два больших класса. Коды с исправлением ошибок имеют целью восстановить с вероятностью, близкой к единице, посланное сообщение. Коды с обнаружением ошибок имеют целью выявить с вероятностью, близкой к единице, наличие ошибок.
Коды, обладающие такими свойствами, называют помехоустойчивыми или корректирующими. У подавляющего большинства существующих корректирующих кодов указанные выше условия являются следствием их алгебраических свойств. Поэтому их называют также алгебраическими кодами. Возможен и другой подход: например, корректирующее действие кодов Вагнера базируется на оценке вероятности искажения каждого символа.
Алгебраические кода, в свою очередь, можно разделить на два больших класса: блоковые и непрерывные (рекурентные).
В случае блоковых кодов процедура кодирования заключается в сопоставлении каждой букве сообщения (т.е. последавательности k символов, соответствующей этой букве) блока из n символов.
Непрерывными (рекуррентными) называют такие коды, в которых введение избыточных символов в кодируемую последовательность информационных символов осуществляется непрерывно, без разделения её на блоки. Непрерывные коды также могут быть разделимыми и неразделимыми.
Блоковые коды: общие принципы построения и свойства
Так как способность кода обнаруживать и исправлять ошибки обусловлена наличием избыточных символов, то на вход кодирующего устройства подаётся последовательность из k информационных двоичных символов, а на выходе ей соответствует последовательность из n двоичных символов, причём n >k.
Блоковый код называется равномерным, если n остаётся постоянным для всех букв сообщения. Если число символов в последовательностях, соответствующих отдельным буквам сообщения, различно, блоковый код называют неравномерным. Такие коды получаются, например, при эффективном кодировании.
Различают также разделимые и неразделимые блоковые коды. При кодировании разделимыми кодами выходные последовательности состоят из символов с чётко разграниченной ролью. Это информационные символы, совпадающие с символами последовательности, поступающей на вход кодера канала, и избыточные (проверочные) символы, вводимые в исходную последовательность кодером канала и служащие для обнаружения и исправления ошибок. При кодировании неразделимыми кодами разделить символы выходной последовательности на информационные и проверочные невозможно.
Всего может быть 2k различных входных последовательностей и 2n различных выходных последовательностей. Из общего числа 2n выходных пследовательностей только 2k последовательностей соответствуют входным. Их называют разрешёнными кодовыми комбинациями. Остальные 2n – 2k возможных выходных последовательностей для передачи не используются; их называют запрещёнными кодовыми комбинациями.
Искажение информации в процессе передачи сводится к тому, что некоторые из переданных символов заменяются другими – неверными. Поскольку каждая из 2k разрешённых комбинаций в результате действия помех может трансформироваться в любую другую, то всего имеется 2k ·2n возможных случаев передачи. В это число входит: 2k случаев безошибочной передачи; 2k(2k –1) случаев перехода в другие разрешённые комбинации, что соответствует необнаруживаемым ошибкам; 2k(2n -2k) случаев перехода в неразрешённые комбинации, которые могут быть обнаружены.
Таким образом, доля опознанных ошибок от общего числа возможных случаев передачи составляет:
(3.3.1)
Например, для кода, содержащего всего один избыточный символ (n = k + 1) общее число выходных последовательностей равно 2k+1, что вдвое больше числа кодируемых входных последовательностей. За подмножество разрешённых кодовых комбинаций можно взять, например, подмножество 2k комбинаций, содержащих чётное число единиц (или нулей). При кодировании к каждой последовательности из k информационных символов добавляется один символ (0 или 1) такой, чтобы число единиц в кодовой комбинации было чётным. Искажение любого нечётного числа символов переводит разрешённую кодовую комбинацию в подмножество запрещённых комбинаций, что обнаруживается на приёмной стороне по нечётному числу единиц. Доля опознанных ошибок составляет 1 – 2k/2k+1 = 1/2.
Рассмотрим случай исправления ошибок.
Любой метод декодирования может трактоваться как правило разбиения всего множества всего множества запрещённых кодовых комбинаций на 2k подмножеств Mi , каждое из которых ставится в соответствие одной из разрешённых комбинаций. При получении запрещённой комбинации, принадлежащец подмножеству Mi , принимается решение, что передавалась разрешённая комбинация Ai, т.е. в 2n – 2k случаях. Таким образом, любой корректирующий код способен исправлять ошибки. Отношение числа исправляемых кодом ошибочных кодовых комбинаций к числу обнаруживаемых ошибочных комбинаций равно:
(3.3.2)
Способ разбиения на подмножества зависит от того, какие ошибки должны исправляться данным конкретным кодом.
Простой код с обнаружением ошибок основан на схеме проверки чётности, применимой к сообщениям любой фиксированной длины . Схема кодирования определяется следующими формулами: .
(3.3.3)
Таким образом , должна быть чётной.
Соответствующая схема декодирования тривиальна:
(3.3.4)
Разумеется, что чётность не гарантирует безошибочной передачи.
Пример 3.3-1. Проверка чётности при реализуется следующим кодом (функцией ): . В двоичном симметричном канале доля неверно принятых сообщений для этого кода (хотя бы с одной ошибкой) равна (три, две или одна ошибка соответственно). Из них незамеченными окажутся только ошибки точно в двух битах, не изменяющие чётности. Вероятность таких ошибок . Вероятность ошибочной передачи сообщения из двух бит равна . При малых верно, что .
Рассмотрим - код с тройным повторением. Коды с повторениями очень неэффективны, но полезны в качестве теоретического примера кодов, исправляющих ошибки. Любое сообщение разбивается на блоки длиной каждое, и каждый блок передаётся трижды - это определяет функцию . Функция определяется следующим образом. Принятая строка разбивается на блоки длиной . Бит с номером в декодированном блоке получается из анализа битов с номерами , , в полученном блоке: берётся тот бит из трёх, который встречается не менее двух раз. Вероятность того, что бит в данной позиции будет принят трижды правильно равна . Вероятность одной ошибки в тройке равна . Поэтому вероятность правильного приёма одного бита равна . Аналогичным образом получается, что вероятность приёма ошибочного бита равна .
Пример 3.3-2. Предположим . Тогда вероятность ошибки при передачи одного бита - 0.028, т.е. этот код снижает вероятность ошибки с 10% до 2.8%.
Подобным образом организованная передача с пятикратным повторением даст вероятность ошибки на бит . В результате вероятность правильной передачи строки длиной 10 возрастет с до при тройных повторениях и до при пятикратных повторениях.
Тройное повторение обеспечивает исправление одной ошибки в каждой позиции за счёт трёхкратного увеличения времени передачи.
Рассмотрим - код, используемый при записи данных на магнитофонную ленту компьютерами Apple II. К каждому байту исходных данных прибавляется бит четности и, кроме того, после каждых таких расширенных битом четности 256 байт добавляется специальный байт, также расширенный битом четности. Этот специальный байт, который называют контрольной суммой (check sum), есть результат применения поразрядной логической операции «исключающее ИЛИ» (XOR) к 256 предшествующим расширенным байтам. Этот код способен как обнаруживать ошибки нечетной кратности в каждом из отдельных байт, так и исправлять до 8 ошибок в блоке длиной 256 байт. Исправление ошибок основано на том, что если в одном из бит одного из байт 256 байтового блока произойдет сбой, обнаруживаемый проверкой четности, то этот же сбой проявится и в том, что результат операции «исключающее ИЛИ» над всеми соответствующими битами блока не будет соответствовать соответствующему биту контрольной суммы. Сбойный бит однозначно определяется пересечением сбойных колонки байта и строки бита контрольной суммы.
На рис. 3.3-1 изображена схема участка ленты, содержащего ровно 9 ошибок в позициях, обозначенных . Расширенный байт контрольной суммы обозначен CS, а бит паритета (в данном случае чётности) - PB (parity bit). Ошибка в позиции может быть исправлена. Ошибки в позициях , , , можно обнаружить, но не исправить. Ошибки в позициях , , , невозможно даже обнаружить.
Рис. 3.3-1.
Приведённые ранее примеры простейших кодов принадлежат к класимволов более длинным блоком из символов. Следовательно, - коды являются блочными.
Существуют также древовидные или последовательные коды, в которых значение очередного контрольного символа зависит от всего предшествующего фрагмента сообщения. Работа с древовидным шумозащитным кодом имеет сходство с работой с арифметическим кодом для сжатия информации.
Расстоянием (Хэмминга) между двоичными словами длины называется количество позиций, в которых эти слова различаются. Это одно из ключевых понятий теории кодирования. Если обозначить двоичные слова как и , то расстояние между ними обозначается .
Весом двоичного слова называется количество единиц в нём. Обозначение . Можно сказать, что .
Пример 3.3-3. Пусть и , тогда , .
Далее операция «+» при применении к двоичным словам будет означать поразрядное сложение без переноса, т.е. сложение по модулю 2 или «исключающее ИЛИ» (XOR).
Расстояние между двоичными словами и равно весу их поразрядной суммы, т.е. .
Если два слова различаются в каком-либо разряде, то это добавит единицу к весу их поразрядной суммы. Следовательно, если и - слова длины , то вероятность того, что слово будет принято как , равна .
Наример, вероятность того, что слово 1011 будет принято как 0011, равна .
Для возможности обнаружения ошибки в одной позиции минимальное расстояние между словами кода должно быть большим 1. Иначе ошибка в одной позиции сможет превратить одно кодовое слово в другое, что не даст ее обнаружить.
Теорема: Для того, чтобы код давал возможность обнаруживать все ошибки кратности, не большей , необходимо и достаточно, чтобы наименьшее расстояние между его словами было .
Достаточность доказывается конструктивно: если условие утверждения выполнено для , то в качестве декодирующей функции следует взять функцию, сообщающую об ошибке, если декодируемое слово отличается от любого из слов из образа .
Необходимость доказывается от противного: если минимальное расстояние , то ошибка в позициях сможет превратить одно кодовое слово в другое.
Для такого кода вероятность того, что ошибки в сообщении останутся необнаруженными, равна
при малых и не слишком маленьких .
Теорема: Для того, чтобы код давал возможность исправлять все ошибки кратности, не большей , необходимо и достаточно, чтобы наименьшее расстояние между его словами было .
Достаточность доказывается конструктивно: если условие утверждения выполнено для , то в качестве декодирующей функции следует взять функцию, возвращающую ближайшее к декодируемому слово из образа .
Необходимость доказывается от противного. Пусть расстояние между выбранными словами в коде равно . Тогда если при передаче каждого из этих слов случится ошибок с изменением бит, в которых различаются эти слова, то приемник получит два идентичных сообщения, что свидетельствует о том, что в данной ситуации исправление ошибок невозможно. Следовательно, минимальное расстояние между словами кода должно быть большим .
Пример 3.3-4. Рассмотрим - код, состоящий из , задающей отображение и , и , задающей отображение , ,, , , , , , . Этот код (с тройным повторением) исправляет ошибки в одной позиции, т.к. минимальное расстояние между словами кода равно 3.
Если код исправляет все ошибки кратности и меньшей, то вероятность ошибочного приёма слова длины очевидно не превосходит . Вероятность правильного приёма в этом случае не меньше, чем
.
Передачу данных часто удобно рассматривать следующим образом. Исходное сообщение кодируется функцией в кодовое слово . Канал связи при передаче добавляет к нему функцией строку ошибок так, что приемник получает сообщение , где . Система, исправляющая ошибки, переводит в некоторое (обычно ближайшее) кодовое слово. Система, только обнаруживающая ошибки, лишь проверяет, является ли принятое слово кодовым, и сигнализирует о наличии ошибки, если это не так.
Пример 3.3-5. Пусть передаваемое слово кодируется словом , а строка ошибок - . Тогда будет принято слово . Система, исправляющая ошибки, переведет его в 0110 и затем восстановит переданное слово 01.
Если система только обнаруживает ошибки и расстояние между любыми кодовыми словами , то любая строка ошибок с единственной единицей приведет к слову , которое не является кодовым.
Пример 3.3-6. Рассмотрим -код с проверкой четности. Множество кодовых слов - . Ни одна из строк ошибок 001, 010, 100, 111 не переводит одно кодовое слово в другое. Т. е. одно- и трёхкратные ошибки могут быть обнаружены.
Пример 3.3-7. Следующий -код обнаруживает две ошибки:
Этот же код способен исправлять однократную ошибку, потому что любые два кодовых слова отличаются по меньшей мере в трех позициях. Из того, что при , следует, что однократная ошибка приведёт к приёму слова, которое находится на расстоянии 1 от кодового слова, которое было передано. Поэтому схема декодирования, состоящая в том, что принятое слово переводится в ближайшее к нему кодовое, будет исправлять однократную ошибку. В двоичном симметричном канале вероятность правильной передачи одного блока будет не меньше чем .
Установлено, что в - коде, минимальное расстояние между кодовыми словами которого , числа , (число дополнительных разрядов в кодовых словах) и должны соответствовать неравенству
(3.3.5)
называемому неравенством или нижней границей Хэмминга. Кроме того, если числа , и соответствуют неравенству
(3.3.6)
называемому неравенством или верхней границей Варшамова - Гильберта, то существует - код, исправляющий все ошибки веса и менее.
Нижняя граница задаёт необходимое условие для помехозащитного кода с заданными характеристиками, т.е. любой такой код должен ему соответствовать, но не всегда можно построить код по подобранным, удовлетворяющим условию характеристикам.
Верхняя граница задаёт достаточное условие для существования помехозащитного кода с заданными характеристиками, т.е. по любым подобранным, удовлетворяющим условию характеристикам можно построить им соответствующий код.
Матричное кодирование
Ранее каждая схема кодирования описывалась таблицами, задающими кодовое слово длины для каждого исходного слова длины . Для блоков большой длины этот способ требует большого объёма памяти и поэтому непрактичен. Например, для - кода потребуется бит.
Гораздо меньшего объема памяти требует матричное кодирование. Пусть бинарная матрица размерности , состоящая из элементов . Кодирование реализуется операцией или , где кодовые слова рассматриваются как векторы, т.е как матрицы-строки размера .
Пример 3.3-8. Рассмотрим следующую - матрицу:
Тогда кодирование задается такими отображениями: , , , , , , , .
Рассмотренный пример показывает преимущества матричного кодирования: достаточно запомнить кодовых слов вместо слов.
Кодирование не должно приписывать одно и то же кодовое слово разным исходным сообщениям. Простой способ добиться этого состоит в том, чтобы столбцов (в предыдущем примере - первых) матрицы образовывали единичную матрицу. При умножении любого вектора на единичную матрицу получается этот же самый вектор, следовательно, разным векторам-сообщениям будут соответствовать разные вектора систематического кода.
Матричные коды называют также линейными кодами. Для линейных -кодов с минимальным расстоянием Хэмминга существует нижняя граница Плоткина для минимального количества контрольных разрядов при :
(3.3.7)
Групповые коды (в частности систематические): общие принципы
построения и свойства.
Множество всех двоичных слов длины образует Aбелеву (коммутативную) группу относительно поразрядного сложения.
Пусть - кодирующая - матрица, у которой есть - подматрица с отличным от нуля определителем, например, единичная. Тогда отображение переводит группу всех двоичных слов длины в группу кодовых слов длины .
Предположим, что . Тогда для ,, , получаем
т.е. . Следовательно, взаимно-однозначное отображение группы двоичных слов длины при помощи заданной матрицы сохраняет свойства групповой операции, что означает, что кодовые слова образуют группу.
Блочный код называется групповым, если его кодовые слова образуют группу.
Если код является групповым, то наименьшее расстояние между двумя кодовыми словами равно наименьшему весу ненулевого слова. Это следует из соотношения .
В предыдущем примере наименьший вес ненулевого слова равен 3. Следовательно, этот код способен исправлять однократную ошибку или обнаруживать однократную и двойную.
При использовании группового кода незамеченными остаются те и только те ошибки, которые отвечают строкам ошибок, в точности равным кодовым словам. Такие строки ошибок переводят одно кодовое слово в другое. Следовательно, вероятность того, что ошибка останется необнаруженной, равна сумме вероятностей всех строк ошибок, равных кодовым словам.
В рассмотренном примере вероятность ошибки равна .
Рассмотрим задачу оптимизации декодирования группового кода с двоичной матрицей кодирования . Требуется минимизировать вероятность того, что .
Схема декодирования состоит из группы всех слов, которые могут быть приняты (). Так как кодовые слова образуют нормальную (нормальность следует из коммутативности ) подгруппу , то множеству можно придать структуру таблицы: будем записывать в одну строку те элементы , которые являются членами одного смежного класса по . Первая строка, соответствующая нулевому слову из , будет тогда всеми кодовыми словами из , т.е. . В общем случае, если , то строка, содержащая (смежный класс ) имеет вид .
Лидером каждого из таких построенных смежных классов называется слово минимального веса. Каждый элемент из однозначно представляется в виде суммы , где - лидер соответствующего смежного класса и .
Множество классов смежности группы образуют фактор-группу, которая есть фактор-множество множества по отношению эквивалентности-принадлежности к одному смежному классу, то есть множества, составляющие это фактор-множество, образуют разбиение . Отсюда следует, что строки построенной таблицы попарно либо не пересекаются, либо совпадают.
Если в рассматриваемой таблице в первом столбце записать лидеры, то полученная таблица называется таблицей декодирования. Она имеет вид:
(3.3.8)
То, что строк будет следует из теоремы Лагранжа, т.к. - это порядок фактор-группы , , .
Декодирование слова состоит в выборе кодового слова в качестве переданного и последующем применении операции, обратной умножению на . Такая схема декодирования сможет исправлять ошибки.
Для - кода из рассматриваемого примера таблица декодирования представлена в табл. 3.3-1. Первая строка в ней - это строка кодовых слов, а первый столбец - это лидеры. Чтобы декодировать слово , следует отыскать его в таблице и выбрать в качестве переданного слово в том же столбце и в первой строке.
Табл. 3.3-1. Таблица декодирования
Например, если принято слово 110011 (2-я строка, 3-й столбец таблицы), то считается, что было передано слово 010011; аналогично, если принято слово 100101 (3-я строка, 4-й столбец табл.), переданным считается слово 110101, и т.д.
Групповое кодирование со схемой декодирования посредством лидеров исправляет все ошибки, строки которых совпадают с лидерами. Следовательно, вероятность правильного декодирования переданного по двоичному симметричному каналу кода равна сумме вероятностей всех лидеров, включая нулевой. В рассмотренной схеме вероятность правильной передачи слова будет .
Кодовое слово любого столбца таблицы декодирования является ближайшим кодовым словом ко всем прочим словам данного столбца.
Пусть переданное слово принято как , , т.е. это расстояние равно весу соответствующего лидера. Расстояние от до любого другого кодового слова равно весу их поразрядной суммы, т.е. т.к. - лидер смежного класса, к которому принадлежат как , так и .
Доказано, при схеме декодирования лидерами по полученному слову берётся ближайшее к нему кодовое.
Совершенные и квазисовершенные коды
Групповой - код, исправляющий все ошибки веса, не большего , и никаких других, называется совершенным.
Свойства совершенного кода:
1. Для совершенного - кода, исправляющего все ошибки веса, не большего , выполняется соотношение . Верно и обратное утверждение;
2. Совершенный код, исправляющий все ошибки веса, не большего , в столбцах таблицы декодирования содержит все слова, отстоящие от кодовых на расстоянии, не большем . Верно и обратное утверждение;
3. Таблица декодирования совершенного кода, исправляющего все ошибки в не более чем позициях, имеет в качестве лидеров все строки, содержащие не более единиц. Верно и обратное утверждение.
Совершенный код - это лучший код, обеспечивающий максимум минимального расстояния между кодовыми словами при минимуме длины кодовых слов. Совершенный код легко декодировать: каждому полученному слову однозначно ставится в соответствие ближайшее кодовое. Чисел , и , удовлетворяющих условию совершенности кода очень мало. Но и при подобранных , и совершенный код можно построить только в исключительных случаях.
Если , и не удовлетворяют условию совершенности, то лучший групповой код, который им соответствует называется квазисовершенным, если он исправляет все ошибки кратности, не большей , и некоторые ошибки кратности . Квазисовершенных кодов также очень мало.
Двоичный блочный - код называется оптимальным, если он минимизирует вероятность ошибочного декодирования. Совершенный или квазисовершенный код - оптимален. Общий способ построения оптимальных кодов пока неизвестен.
Для любого целого положительного числа существует совершенный -код, исправляющий одну ошибку, называемый кодом Хэмминга (Hamming), в котором и .
Порядок построения кода Хэмминга следующий:
1. Выбираем целое положительное число . Сообщения будут словами длины , а кодовые слова - длины ;
2. В каждом кодовом слове бит с индексами-степенями двойки - являются контрольными, остальные - в естественном порядке - битами сообщения. Например, если , то биты - контрольные, а - из исходного сообщения;
3. Строится матрица из строк и столбцов. В - ой строке стоят цифры
двоичного представления числа . Матрицы для =2, 3 и 4 таковы:
4. Записывается система уравнений , где - матрица из предыдущего пункта. Система состоит из уравнений. Например, для :
5. Чтобы закодировать сообщение , берутся в качестве , не равно степени двойки, соответствующие биты сообщения и отыскиваются, используя полученную систему уравнений, те , для которых - степень двойки. В каждое уравнение входит только одно , . В выписанной системе входит в
первое уравнение, - во второе и - в третье. В рассмотренном примере сообщение будет закодировано кодовым словом .
Декодирование кода Хэмминга проходит по следующей схеме. Пусть принято слово , где - переданное кодовое слово, а - строка ошибок. Так как , то . Если результат нулевой, как происходит при правильной передаче, считается, что ошибок не было. Если строка ошибок имеет единицу в - й позиции, то результатом произведения будет - я строка матрицы или двоичное представление числа . В этом случае следует изменить символ в - й позиции слова , считая позиции слева, с единицы.
Пример 3.3-9. - код Хэмминга имеет в качестве одного из кодовых слов . Матрица приведена на шаге 3 хода построения кода Хэмминга. Ясно, что . Добавим к строку ошибок . Тогда и , т.е. ошибка находится в третьей позиции. Если , то и позиция ошибки - и т.п. Если ошибка допущена в более чем в одной позиции, то декодирование даст неверный результат.
Код Хэмминга - это групповой код.
Это следует из того, что - код Хэмминга можно получить матричным кодированием, при помощи - матрицы, в которой столбцы с номерами не степенями 2 образуют единичную подматрицу. Остальные столбцы соответствуют уравнениям шага 4 построения кода Хэмминга, т.е. 1-му столбцу соответствует уравнение для вычисления 1-го контрольного разряда, 2-му – для 2-го, 4-му – для 4-го и т.д. Такая матрица будет при кодировании копировать биты сообщения в позиции не степени 2 кода и заполнять другие позиции кода согласно схеме кодирования Хэмминга.
Пример 3.3-10. Кодирующая матрица для - кода Хэмминга:
Её столбцы с номерами 3, 5, 6 и 7 образуют единичную подматрицу. Столбцы с номерами 1, 2 и 4 соответствуют уравнениям для вычисления контрольных бит, например, уравнению соответствует столбец 1101, т.е. для вычисления первого контрольного разряда берутся 1, 2 и 4 биты исходного сообщения или биты 3, 5 и 7 кода.
К - коду Хэмминга можно добавить проверку четности. Получится - код с наименьшим весом ненулевого кодового слова 4, способный исправлять одну и обнаруживать две ошибки.
Коды Хэмминга накладывают ограничения на длину слов сообщения: эта длина может быть только числами вида : 1, 4, 11, 26, 57, … Но в реальных системах информация передается байтам или машинными словами, т.е. порциями по 8, 16, 32 или 64 бита, что делает использование совершенных кодов не всегда подходящим. Поэтому в таких случаях часто используются квазисовершенные коды.
Квазисовершенные - коды, исправляющие одну ошибку, строятся следующим образом. Выбирается минимальное так, чтобы
(3.3.9)
Каждое кодовое слово такого кода будет содержать контрольных разрядов. Из предыдущих соотношений следует, что
(3.3.10)
Каждому из разрядов присваивается слева - направо номер от 1 до . Для заданного слова сообщения составляются контрольных сумм по модулю 2 значений специально выбранных разрядов кодового слова, которые помещаются в позиции-степени 2 в нём: для выбираются разряды, содержащие биты исходного сообщения, двоичные числа-номера которых имеют в - м разряде единицу. Для суммы это будут, например, разряды 3, 5, 7 и т.д., для суммы - 3, 6, 7 и т.д. Таким образом, для слова сообщения будет построено кодовое слово .
Обозначим сумму по модулю 2 разрядов полученного слова, соответствующих контрольной сумме и самой этой контрольной суммы. Если , то считается, что передача прошла без ошибок. В случае одинарной ошибки будет равно двоичному числу – номеру сбойного бита. В случае ошибки кратности большей 1, когда , её можно обнаружить.
Подобная схема декодирования не позволяет исправлять некоторые двойные ошибки, чего можно было бы достичь, используя схему декодирования с лидерами, но последняя значительно сложнее в реализации и даёт незначительное улучшение качества кода.
Пример 3.3-11. построения кодового слова квазисовершенного - кода, исправляющего все однократные ошибки, для сообщения 100011010:
и , т.е. .
Искомое кодовое слово имеет вид
Далее нужно вычислить контрольные суммы, для чего используем таблицу 3.3-2.
Десятичное
представление
1
2
3
4
5
6
7
Двоичное
представление
0001
0010
0011
0100
0101
0110
0111
Десятичное
представление
8
9
10
11
12
13
Двоичное
представление
1000
1001
1010
1011
1100
1101
Табл. 3.3-2.
Таким образом, искомый код - 0011000111010. Если в процессе передачи этого кода будет испорчен его пятый бит, то приемник получит код 0011100111010. Для его декодирования опять вычисляются контрольные суммы:
Приёмник преобразует изменением пятого бита полученное сообщение в отправленное передатчиком, из которого затем отбрасыванием контрольных разрядов восстанавливает исходное сообщение.
Совершенный код Хэмминга также можно строить по рассмотренной схеме, т.к. для него .
Для исправления одинарной ошибки к 8-разрядному коду достаточно приписать 4 разряда т.к. , к 16-разрядному - 5, к 32-разрядному - 6, к 64-разрядному - 7.
Систематические коды
Самый большой класс разделимых кодов представляют систематические коды.
Идея систематических кодов состоит в добавлении к символам исходных кодов, предназначенных для передачи в канале, нескольких контрольных символов по определенной схеме кодирования. Принятая такая удлинённая последовательность кодов декодируется по схеме декодирования в первоначально переданную. Приёмник способен распознавать и/или исправлять ошибки, вызванные шумом, анализируя дополнительную информацию, содержащуюся в удлиненных кодах.
Для случая двоичных кодов каждый проверочный символ выбирается таким, чтобы его сумма с определённым информационными символами стала равной нулю. Символ проверочной позиции имеет значение 1, если число информационных разрядов, входящих в данное проверочное равенство, нечётно, и 0, если оно чётно. Число проверочных равенств (а следовательно, и число проверочных символов) и номера конкретных информационных разрядов, входящих в кождое из равенств, определяются тем, сколько и каких ошибок должен исправить или обнаружить данный код. Проверочные символы могут распологаться в любом месте кодовой комбинации.
При декодировании определяется справедливость проверочных равенств. В случае двоичных кодов такое определение сводится к проверкам на чётность числа единиц среди символов, входящих в каждое из равенств (включая проверочный). Совокупность проверок таким образом даёт информацию о наличии ошибки, а в случае необходимости и о том, на каких позициях символы искажены.
Любой двоичный систематический код является групповым кодом, так как совокупность входящих внего кодовых комбинаций образует группу.
Полиномиальные коды
При полиномиальном кодировании каждое сообщение отождествляется с многочленом, а само кодирование состоит в умножении на фиксированный многочлен. Полиномиальные коды - блочные и отличаются от рассмотренных ранее только алгоритмами кодирования и декодирования.
Пусть - двоичное сообщение. Тогда сопоставим ему многочлен . Все вычисления происходят в поле классов вычетов по модулю 2, т. е. от результата любой арифметической операции берется остаток от его деления на 2. Например, последовательности 10011 при соответствует многочлен .
Зафиксируем некоторый многочлен степени :
(3.3.11)
Полиномиальный код с кодирующим многочленом кодирует слово сообщения многочленом или кодовым словом из коэффициентов этого многочлена . Условия необходимы, потому что в противном случае и не будут нести никакой информации, т.к. они всегда будут нулями.
Пример 3.3-12. Рассмотрим кодирующий многочлен . Сообщение 01011, отвечающее многочлену , будет закодировано коэффициентами многочлена , т.е. .
Полиномиальный код с кодирующим многочленом степени является матричным кодом с кодирующей матрицей размерности :
(3.3.12)
Т е. ненулевые элементы в - й строке - это последовательность коэффициентов кодирующего многочлена, расположенных с -го по -й столбцах.
Например, - код с кодирующим многочленом отвечает матрице
или отображению: ; ; ; ; ; ; ; .
Полиномиальные коды являются групповыми. Это следует из того, что коды, получаемые матричным кодированием, - групповые.
Рассмотрим - код с кодирующим многочленом . Строка ошибок останется необнаруженной в том и только в том случае, если соответствующий ей многочлен делится на .
Действительно, делится на тогда и только тогда, когда делится на . Поэтому любая ошибка, многочлен которой не делится на , будет обнаружена и, соответственно, любая ошибка, многочлен которой делится на , не может быть обнаружена.
Таким образом, обнаружение ошибки при использовании полиномиального кода с кодирующим многочленом может быть реализовано при помощи алгоритма деления многочленов с остатком: если остаток ненулевой, то при передаче произошло искажение данных.
Коды Хэмминга можно строить как полиномиальные. Так кодирующий многочлен задаёт совершенный - код, отличный от рассмотренного ранее.
Вообще же, если кодирующий многочлен , порождающий соответствующий - код, не является делителем ни одного из многочленов вида , то минимальное расстояние между кодовыми словами порожденного им кода не меньше 3.
Пусть - минимальное расстояние между кодовыми словами, оно равно минимуму среди весов ненулевых кодовых слов. Предположим . Тогда существует такой, что и степень не больше . Вес равен 2, поэтому и . Следовательно, , что означает, что должен делиться на , а это невозможно по условию. Если предположить, что , то это приведет к утверждению о том, что должен делиться на , что тоже противоречит условию. Итак, .
Кодирующий многочлен определяет совершенный - код Голея (Golay) с минимальным расстоянием между кодовыми словами 7. (В 1971 году финскими и советскими математиками было доказано, что кроме кодов Хэмминга и Голея других совершенных кодов нет.)
Наиболее интересными среди полиномиальных кодов являются циклические коды, в которых вместе с любым кодовым словом вида есть кодовое слово .
Циклические коды: общие принципы построения и свойства.
Любой групповой код (n,k)может быть записан в виде матрицы, включающей k линейно независимых строк по n символов и, наоборот, любая совокупность k линейно независимых n-разрядных кодовых комбинаций может рассматриваться как образующая матрица некоторого группового кода. Среди всего многообразия таких кодов можно выделить коды, у которых строки образующих матриц связаны дополнительным условием цикличности.
Все строки образующей матрицы такого кода могут быть получены цикличес-ким сдвигом одной комбинации, называемой образующей для данного кода. Коды, удовлетворяющие этому условию, получили название циклических кодов.
Сдвиг осуществляется справа налево, причем крайний левый символ каждый
раз переносится в конец комбинации. Запишем, например, совокупность кодовых комбинаций, получающихся циклическим сдвигом комбинации 001011:
Число возможных циклических (n, k)-кодов значительно меньше числа различных групповых (n, k)-кодов.
При описании циклических кодов n-разрядные кодовые комбинации представляются в виде многочленов фиктивной переменной х. Показатели степени у x соответствуют номерам разрядов (начиная с нулевого), а коэффициентами при x в общем случае являются элементы поля GF(q). При этом наименьшему разряду числа соответствует фиктивная переменная х° = 1. Многочлен с коэффициентами из поля GF(q) называют многочленом над полем GF(q). Так как мы ограничиваемся рассмотрением только двоичных кодов, то коэффициентами при x будут только цифры 0 и 1. Иначе говоря, будем оперировать с многочленами над полем GF(2).
Запишем, например, в виде многочлена образующую кодовую комбинацию 01011:
G(x) = 0∙x4 + 1∙x3 + 0∙x2 + 1∙x + 1.
Поскольку члены с нулевыми коэффициентами при записи многочлена
опускаются, образующий многочлен·
(3.3.13)
Наибольшую степень x в слагаемом с ненулевым коэффициентом называют степенью многочлена. Теперь действия над кодовыми комбинациями сводятся к действиям над многочленами. Суммирование многочленов осуществляется с приведением коэффициентов по модулю два.
Указанный циклический сдвиг некоторого образующего многочлена степени n- k без переноса единицы в конец кодовой комбинации соответствует простому умножению на x. Умножив, например, первую строку матрицы (001011), соответствующую многочлену g0(x) = х3+x+1, на х, получим вторую строку матрицы (010110), соответствующую многочлену x ·g0(x).
; .
Нетрудно убедиться, что кодовая комбинация, получающаяся при сложении этих двух комбинаций, также будет соответствовать результату умножения многочлена x3 + x + 1 на многочлен x+1.
Циклический сдвиг строки матрицы с единицей в старшем (n-m) разряде (слева) равносилен умножению соответствующего строке многочлена на x с одновременным вычитанием из результата многочлена хn+1 = хn-1, т. е. с приведением по модулю хn+1.
Отсюда ясно, что любая разрешенная кодовая комбинация циклического кода может быть получена в результате умножения образующего многочлена на некоторый другой многочлен с приведением результата по модулю хn+1. Иными словами, при соответствующем выборе образующего многочлена любой многочлен циклического кода будет делиться на него без остатка.
Ни один многочлен, соответствующий запрещенной кодовой комбинации, на образующий многочлен без остатка не делится. Это свойство позволяет обнаружить ошибку. По виду остатка можно определить и вектор ошибки.
Умножение и деление многочленов весьма просто осуществляется на регистрах
сдвига с обратными связями, что и явилось причиной широкого применения циклических кодов.
Математическое введение к циклическим кодам.
Так как каждая разрешенная комбинация n-разрядного циклического кода есть произведение двух многочленов, один из которых является образующим, то эти комбинации можно рассматривать как подмножества всех произведений многочленов степени не выше n−1. Это наталкивает на мысль использовать для построения этих кодов еще одну ветвь теории алгебраических систем, а именно — теорию колец.
Как следует из приведенного ранее определения, для образования кольца на множестве n-разрядных кодовых комбинаций необходимо задать две операции: сложение и умножение.
Операция сложения многочленов уже выбрана нами с приведением коэффициентов по модулю два.
Определим теперь операцию умножения. Нетрудно видеть, что операция умножения многочленов по обычным правилам с приведением подобных членов по модулю два может привести к нарушению условия замкнутости. Действительно, в результате умножения могут быть получены многочлены более высокой степени, чем n−1, вплоть до 2(n−1), а соответствующие им кодовые комбинации будут иметь число разрядов, превышающее n и, следовательно, не относятся к рассматриваемому множеству. Поэтому операция символического умножения задается так:
1) многочлены перемножаются по обычным правилам, но с приведением подобных членов по модулю два;
2) если старшая степень произведения не превышает n−1, то оно и является результатом символического умножения;
3) если старшая степень произведения больше или равна n, то многочлен произведения делится на заранее определенный многочлен степени n и результатом символического умножения считается остаток от деления.
Степень остатка не превышает n−1, и, следовательно, этот многочлен принадлежит к рассматриваемому множеству n-разрядных кодовых комбинаций.
При анализе циклического сдвига с перенесением единицы в конец кодовой комбинации найдено, что таким многочленом n-й степени является многочлен хn+1.
Действительно, после умножения многочлена степени n−1 на x получим:
G(x) = (x n−1 + x n−2 + … + x = 1)x = xn + xn−1 + …+ x. (3.3.14)
Следовательно, чтобы результат умножения и теперь соответствовал кодовой
комбинации, образующейся путем циклического сдвига исходной кодовой комбинации, в нем необходимо заменить хn на 1. Такая замена эквивалентна делению полученного при умножении многочлена на xn+1 с записью в качестве результата остатка от деления, что обычно называют взятием остатка или приведением по модулю хn+1 (сам остаток при этом называют вычетом).
Выделим теперь в нашем кольце подмножество всех многочленов, кратных некоторому многочлену g(x). Такое подмножество называют идеалом, а многочлен g(x) — порождающим многочленом идеала.
Количество различных элементов в идеале определяется видом его порождающего многочлена. Если на порождающий многочлен взять 0, то весь идеал будет составлять только этот многочлен, так как умножение его на любой другой многочлен дает 0.
Если за порождающий многочлен принять l[g(x) = 1], то в идеал войдут все многочлены кольца. В общем случае число элементов идеала, порожденного простым многочленом степени n − k, составляет 2k.
Теперь становится понятным, что циклический двоичный код в построенном нами кольце n-разрядных двоичных кодовых комбинаций является идеалом.
Остается выяснить, как выбрать многочлен g(x), способный породить циклический код с заданными свойствами.
Лекция 4. Дискретные случайные источники
4.1. Источники сообщенй и каналы cвязи:
основные понятия и определения
Опираясь на формализованное описание сигналов и введенную меру количества информации, рассмотрим информационные характеристики источников сообщений и каналов связи, позволяющие установить пути повышения эффективности систем передачи информации, и, в частности, определить условия, при которых можно достигнуть максимальной скорости передачи сообщений по каналу связи как в отсутствие, так и при наличии помех.
Источники сообщений и каналы связи в системах передачи отличаются большим разнообразием по своей структуре и физической природе. Используются механические, акустические, оптические, электрические и радиоканалы. Для выяснения общих закономерностей необходимо абстрагироваться от их конкретного физического воплощения и оперировать формализованными понятиями источника сообщения и канала связи.
Источник дискретных сообщений формирует дискретные последовательности из ограниченного числа элементарных сообщений.
На выходе источника непрерывных сообщений образуются непрерывные сообщения.
Источник сообщений в теории информации полностью определяется статистическими данными о формируемых им сообщениях.
Под каналом связи подразумевают совокупность устройств и физических сред, обеспечивающих передачу сообщений из одного места в другое (или от одного момента времени до другого). Если канал используется для передачи дискретных сообщений, он называется дискретным каналом. Непрерывным будем называть канал, предназначенный для передачи непрерывных сообщений.
Так как в процессе передачи дискретных сообщений модулятором в соответствии с поступающей последовательностью символов осуществляется изменение информативного параметра непрерывного (чаще всего высокочастотного) сигнала, генерируемого передатчиком в линию связи, то часть дискретного канала от выхода модулятора до входа демодулятора (рис. 4.1) является непрерывным каналом связи. Включив в состав этого канала на передающей стороне модулятор, а на приемной — демодулятор, получим дискретный канал, характеризуемый на входе множеством символов u, а на выходе — множеством символов υ.
Для достижения определенных целей в указанный дискретный канал могут быть введены кодирующие и декодирующие устройства. При этом получаем дискретный канал связи, на вход которого поступают сообщения z, а выходом являются сообщения w, направляемые адресату. Отметим, что непрерывные сообщения z(t) путем дискретизации и квантования всегда можно преобразовать в дискретные и, таким образом, перейти от непрерывного канала к дискретному.
Если вредным действием помех в канале можно пренебречь, то для анализа используется модель в виде идеализированного канала, называемого каналом без помех. В идеальном канале каждому сообщению на входе однозначно соответствует определенное сообщение на выходе и наоборот.
Когда требования к достоверности велики и пренебрежение неоднозначностью связи между сообщениями z и w недопустимо, используется более сложная модель — канал с помехами.
Канал считается заданным, если известны статистические данные о сообщениях на его входе и выходе и ограничения, накладываемые на входные сообщения физическими характеристиками канала. Канал прямой передачи (от источника сообщений к их получателю), дополненный обратным каналом, например, для запроса повторной передачи в случае обнаружения ошибки, называют каналом с обратной связью.
4.2. Информационные характеристики
и модели источника дискретных сообщений
Стационарные и эргодические источники
В лекциях 1 и 2 речь шла о средней неопределенности и среднем количестве информации, приходящимся на одно состояние источника сообщений. Математической моделью множества возможных реализаций источника была дискретная или непрерывная случайная величина.
На практике, однако, нас чаще всего интересует не одно конкретное состояние источника, а дискретные или непрерывные последовательности состояний, реализуемых источником за длительный промежуток времени, например телеграммы, видеосюжеты и т. п. Для описания таких сообщений используются математические модели в виде дискретных и непрерывных случайных процессов.
Для построения модели необходимо знать объем l алфавита знаков (), из которых источником формируются сообщения, и вероятности создания им отдельных знаков с учетом их возможной взаимосвязи.
При доказательстве основных положений теории информации Шенноном использовалась модель, называемая эргодическим источником сообщений. Предполагается, что создаваемые им сообщения математически можно представить в виде эргодической случайной последовательности. Такая последовательность, как известно, удовлетворяет условиям стационарности и эргодичности. Первое означает, что вероятности отдельных знаков и их сочетаний не зависят от расположения последних по длине сообщения. Из второго следует, что статистические закономерности, полученные при исследовании одного достаточно длинного сообщения с вероятностью, близкой к единице, справедливы для всех сообщений, создаваемых источником. Из статистических характеристик в данном случае нас интересует средняя неопределенность в расчете на один знак последовательности.
Стационарный источник сообщений, выбирающий каждый знак формируемой последовательности независимо от других знаков, всегда является эргодическим. Его также называют источником без памяти.
На практике, однако, чаще встречаются источники, у которых вероятность выбора одного знака сообщения зависит от того, какие знаки были выбраны источником до этого (источники с памятью). Поскольку такая связь, как правило, распространяется на ограниченное число предыдущих знаков, для описания функциони-рования источника целесообразно использовать цепи Маркова.
Цепь Маркова порядка n характеризует последовательность событий, вероятности которых зависят от того, какие n событий предшествовали данному. Эти n конкретных событий определяют состояние источника, в котором он находится при выдаче очередного знака. При объеме алфавита знаков l число R различных состояний источника не превышает . Обозначим эти состояния через , а вероятности выбора в состоянии знака — через . При определении вероятности естественно предположить, что к моменту выдачи источником очередного знака известны все знаки, созданные им ранее, а следовательно, и то, в каком состоянии находится источник.
Если источник находится в состоянии , его частная энтропия H() определяется соотношением
(4.2-1)
Усредняя случайную величину H() по всем возможным состояниям q = , получаем энтропию источника сообщений:
H(Z) = (4.2-2)
где p() — вероятность того, что источник сообщений находится в состоянии .
Величина H(Z) характеризует неопределенность, приходящуюся в среднем на один знак, выдаваемый источником сообщений.
Определим энтропию источника сообщений для нескольких частных случаев.
Если статистические связи между знаками полностью отсутствуют, то после выбора источником знака , его состояние не меняется (R = 1). Следовательно, p()= 1, и для энтропии источника сообщений справедливо выражение:
Когда корреляционные связи наблюдаются только между двумя знаками (простая цепь Маркова), максимальное число различных состояний источника равно объему алфавита. Следовательно, R= l и = , где q = . При этом выражение (4.2) принимает вид
H(Z) = (4.2-3)
При наличии корреляционной связи между тремя знаками состояния источника определяются двумя предшествующими знаками. Поэтому для произвольного состояния источника , удобно дать обозначение с двумя индексами , где k= и h= .
Тогда p(Sq) = p(Sk,h) = p(zk ,zh) и p(zj) = p(zj /zk,zh).
Подставляя эти значения в (4.2-2), находим
(4.2-4)
Аналогично можно получить выражения для энтропии источника сообщений и при более протяженной корреляционной связи между знаками.
Пример 4.2-1. Определить, является ли эргодическим стационарный дискретный источник сообщений, алфавит которого состоит из четырех знаков и , причем безусловные вероятности выбора знаков одинаковы [], a условные вероятности заданы в
табл. 4.2-1.
zj
zq
z1
z2
z3
z4
z1
z2
z3
z4
1/3
1/3
1/3
1/3
1/3
1/3
1/3
1/3
1/3
1
Табл. 4.2-1. Условные вероятности p(zj /zq)
Анализ табл. 4.2-1 показывает, что источник имеет два режима работы. С веро
ятностью, равной ¾, первым будет выбран один из знаков или и источник начнет формировать последовательность с равновероятным появлением знаков. Если же первым будет выбран знак (вероятность такого случая = ¼), то генериру
ется последовательность, содержащая только знаки .
Усреднение по ансамблю предполагает наличие множества однотипных источников, примерно три четверти из которых будет работать в первом режиме, а остальные – во втором. При этом, в соответствии с (4.2-3) энтропия источника H(Z) = – (3/4)log2(1/3) – (1/4)log21 = 1,19 дв. ед.
Среднее по последовательности (времени) вычисляется с использованием конкретной последовательности и поэтому зависит от режима функционирования источника. В первом режиме неопределенность, приходящаяся на один знак достаточно длинной последовательности (энтропия последовательности), равна 1,586 дв. ед., а во втором — нулю.
Поскольку энтропии формируемых последовательностей не совпадают с энтропией источника, он не является эргодическим.
Отметим, однако, что любой стационарный источник сообщений может быть представлен совокупностью нескольких эргодических источников, различающихся режимами работы.
Свойства эргодических последовательностей знаков.
Характер последовательностей, формируемых реальным источником сообщений, зависит от существующих ограничений на выбор знаков. Они выражаются в том, что вероятности реализации знаков различны и между ними существуют корреляционные связи. Эти ограничения приводят к тому, что вероятности формируемых последовательностей существенно различаются.
Пусть, например, эргодический источник без памяти последовательно выдает знаки в соответствии с вероятностями 0,1; 0,3; 0,6. Тогда в образованной им достаточно длинной последовательности знаков мы ожидаем встретить в среднем на один знак три знака и шесть знаков . Однако при ограниченном числе знаков в последовательности существуют вероятности того, что она будет содержать;
только знаки (либо , либо );
только знаки и один знак или ;
только знаки и один знак или ;
только знаки и один знак или ;
только знаки и два знака или и т. д.
С увеличением числа знаков вероятности появления таких последовательностей уменьшаются.
Фундаментальные свойства длинных последовательностей знаков, создаваемых эргодическим источником сообщений, отражает следующая теорема: как бы ни малы были два числа δ>0 и μ>0 при достаточно большом Ν, все последовательности могут быть разбиты на две группы.
Одну группу составляет подавляющее большинство последовательностей, каждая из которых имеет настолько ничтожную вероятность, что даже суммарная вероятность всех таких последовательностей очень мала и при достаточно большом N будет меньше сколь угодно малого числа δ. Эти последовательности называют нетипичными.
Вторая группа включает типичные последовательности, которые при достаточно большом N отличаются тем, что вероятности их появления практически одинаковы, причем вероятность p любой такой последовательности удовлетворяет неравенству
(4.2-5)
где Η(Ζ) – энтропия источника сообщений.
Соотношение (4.2-5) называют также свойством асимптотической равномерности длинных последовательностей. Рассмотрим его подробнее.
Поскольку при N→ ∞ источник сообщений с вероятностью, сколь угодно близкой к единице, выдает только типичные последовательности, принимаемое во внимание число последовательностей равно 1/р. Неопределенность создания каждой такой последовательности с учетом их равновероятности составляет log(l/p). Тогда величина log(l/p)/N представляет собой неопределенность, приходящуюся в среднем на один знак, причём эта величина практически не должна отличаться от энтропии источника, что и констатируется соотношением (4.2-5).
Ограничимся доказательством этого утверждения для простейшего случая эргодического источника без памяти. Оно непосредственно вытекает из закона больших чисел, в соответствии с которым в длинной последовательности из N элементов алфавита l (), имеющих вероятности появления , содержится Np элементов , Np элементов и т. д.
Тогда вероятность p реализации любой типичной последовательности близка к величине
. (4.2-6)
Логарифмируя правую и левую части выражения (4.2-6), получаем
откуда (при очень больших Ν) log (1/p) / N = H(Z).
(В общем случае для доказательства привлекают цепи Маркова).
Покажем теперь, что за исключением случая равновероятного и независимого выбора букв источником, когда нетипичные последовательности отсутствуют, типичные последовательности при достаточно большом N составляют незначительную долю от общего числа возможных последовательностей.
При объеме алфавита источника l и количестве знаков в последовательности N число всех возможных последовательностей
(4.2-7)
Принимая во внимание соотношение (4.5), число типичных последовательностей n можно записать в виде
. (4.2-8)
Тогда
Так как H(Z) < log2l то n2 ≪ n1 и неравенство усиливается с увеличением N.
Ещё Шенноном было показано, что рассмотренные свойства длинных последовательностей могут служить основанием для осуществления эффективного кодирования информации.
Пример 4.2-2. Оценить, какую долю общего числа возможных последовательностей следует учитывать в практических расчетах, если эргодический источник характеризуется параметрами l = 16, Η(Ζ) = 3,5 дв.ед , а N = 50.
В соответствии с (4.2-7) и (4.2-8) имеем n1 = 1650 = 2200; n2 = 250· 3,5 = 2175,
откуда n2/n1 = 2175/2200 = 1/ 225 ≈ 1/30 · 106.
Следовательно, к типичным последовательностям данного источника относится только одна тридцатимиллионная доля всех возможных реализаций.
Избыточность.
Следствием ограничений на выбор источником знаков является также недоиспользование их как переносчиков информации. Известная априорная информация о вероятностях выбора отдельных знаков и их сочетаний приводит к уменьшению средней неопределенности выбора источником знака, а следовательно, и переносимого им количества информации. При равновероятном и некоррелированном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема. В связи с этим говорят об избыточности алфавита l источника сообщений или просто об избыточности источника.
Мерой избыточности служит величина D, показывающая, насколько хорошо используются знаки данного источника:
D = [Hmax(Z) – H(Z) ] / [Hmax(Z)] (4.2-9)
где (Z) — максимально возможная энтропия, равная log l; H(Ζ) — энтропия источника.
Если избыточность источника равна нулю, то формируемые им сообщения оптимальны в смысле наибольшего количества переносимой информации. Для передачи определенного количества информации I при отсутствии помех в этом случае необходимо k = I / [(Z)] знаков.
Поскольку энтропия сообщений, формируемых реальным источником, обладающим избыточностью, меньше максимальной, то для передачи того же количества информации I знаков требуется больше, а именно:
= I / H(Z) > k.
Поэтому говорят также об избыточности знаков в сообщении или просто об избыточности сообщения, характеризуя ее тем же параметром D:
D = (k2 – k1) / k2 = [Hmax(Z) – H(Z) ] / [Hmax(Z)]
Избыточность нельзя рассматривать как признак несовершенства источника сообщений. Обычно она является следствием его физических свойств. Ограничения, существующие в любом естественном языке, связаны, например, с особенностями артикуляции, не позволяющими формировать слова, состоящие из произвольных сочетаний букв.
Последствия от наличия избыточности сообщений неоднозначны. С одной стороны, избыточные сообщения требуют дополнительных затрат на передачу, например, увеличения длительности передач или расширения практической ширины спектра канала связи, что нежелательно. С другой стороны, при использовании сообщений, подчиняющихся априорно известным ограничениям, появляется возможность обнаружения и исправления ошибок, которые приводят к нарушению этих ограничений. Следовательно, наличие избыточности способствует повышению помехоустойчивости сообщений. Высокая избыточность большинства естественных языков обеспечивает, например, надежное общение людей даже при наличии у них акцентов и дефектов речи.
Однако при обмене информацией в автоматических системах естественная избыточность подлежит устранению. Это объясняется тем, что алгоритмы обнаружения и исправления ошибок, базирующихся на статистических закономерностях функционирования источника, оказываются слишком сложными для реализации их техническими средствами. В случае необходимости для повышения помехоустойчивости затем вводится «рациональная» избыточность, позволяющая обеспечить обнаружение и исправление наиболее вероятных и опасных по последствиям ошибок простыми техническими средствами. При низком уровне помех в канале связи устранение избыточности приводит к увеличению скорости передачи информации и может дать значительный экономический эффект.
Пример 4.2-3. Определить возможный эффект от устранения избыточности при передаче текста на русском языке.
Максимальная энтропия текста на русском языке (с учетом пренебрежения при передаче различиями в буквах е и ё, ъ и ь) равна 5 дв. ед. Так же определена энтропия с учетом неравномерного распределения вероятностей появления отдельных букв (4,42 дв. ед.). Имея сведения о переходных вероятностях и, исходя из модели текста как простой цепи Маркова, можно установить, что энтропия уменьшается до 3,52 дв. ед. Учет же всех ограничений в языке, включая связи между словами, позволяет оценить минимальную величину энтропии значением 1,5 дв. ед. Таким образом, избыточность русского языка составляет D = (5 – 1,5) / 5 = 0,7.
Это означает, что каналы связи, построенные без учета ограничений, существующих в языке, и способные передавать равновероятные буквы, следующие друг за другом в любых сочетаниях, при передаче информации без помех текстом на русском языке используется всего на 30 %. Полное устранение избыточности позволило бы повысить эффективность их использования более чем в 3 раза.
Производительность источника дискретных сообщений.
Под производительностью источника сообщений подразумевают количество информации, вырабатываемое источником в единицу времени Эту характеристику источника называют также скоростью создания сообщений или потоком входной информации. Поскольку возможное воздействие помех на источник сообщений принято учитывать эквивалентным изменением характеристик модели канала связи, то производительность источника сообщений равна энтропии источника, приходящейся на единицу времени.
Длительность выдачи знаков источником в каждом из состояний в общем случае может быть различной. Обозначим длительность выдачи знака , формируемого источником в состоянии S, через τ. Тогда средняя длительность выдачи источником одного знака
(4.2-10)
Производительность источника Ī(Z) теперь можно выразить формулой
Ī(Z) = H(Z) / τи (4.2-11)
Как следует из (4.2-10), повышение производительности источника возможно не только за счет увеличения энтропии, но и за счет снижения средней длительности формирования знака. Длительность знаков желательно выбирать обратно пропорциональными вероятностям их появления.
Если длительность выдачи знака не зависит от состояния источника, для всех знаков одинакова и равна τ, то τ= τ. Наибольшая производительность источника в этом случае достигается при максимальной энтропии.
4.3. Информационные характеристики источника
непрерывных сообщений
Эпсилон-энтропия случайной величины
Ранее было показано, что неопределенность реализации непрерывным источником информации состояния в конкретный момент времени (отсчета) равна бесконечности. Тем более равна бесконечности неопределенность реализации непрерывным источником конкретного сигнала длительности Т.
Однако такой результат получен в предположении возможности фиксировать любые сколь угодно малые различия между реализациями. На практике такая возможность отсутствует. Это объясняется тем, что воспринимающие информацию датчики, включая человека, обладают ограниченной чувствительностью и конечной разрешающей способностью, а также тем, что процесс восприятия сопровождается помехами.
Если учесть, что нас интересует приближенное восприятие реализации, то количество информации, приходящееся на отсчет или на единицу времени, можно вычислить.
Ограничимся рассмотрением простейшего случая, когда отдельные состояния источника информации представляют собой независимые реализации случайной величины U.
Ансамбль реализаций случайной величины U описывается плотностью распределения вероятностей р(u). О значениях случайной величины U можно судить по значениям другой случайной величины Ζ, если мера их различия не превышает заданной верности воспроизведения. В этом случае говорят, что Ζ воспроизводит U.
Для количественной оценки степени сходства сигналов целесообразно ввести какую-либо функцию ρ(z, u), имеющую природу «расстояния». Тогда удобным критерием верности V(Z, U) является среднее значение функции ρ(z, u), взятое по всему множеству значений z и u:
, (4.3-1)
p(z, u) – плотность совместного распределения вероятностей величин Ζ и U.
Наиболее широко используется среднеквадратический критерий, при котором ρ(z, u) представляет собой квадрат обычного евклидова расстояния между точками в соответствующем пространстве.
Требование к верности в данном случае задается с использованием критерия V(Z, U):
(4.3-2)
где — условная плотность распределения — функция правдоподобия того, что конкретный сигнал u будет воспроизведен как сигнал z; ε — заданное значение верности.
Так как плотность р(u) определена, то для выполнения условия (3.60) варьировать можно только условной плотностью распределения .
Если случайная величина Ζ воспроизводит случайную величину U с некоторой верностью ε, то количество информации, содержащееся в воспроизводящей величине Ζ относительно U, конечно и может быть записано в форме
(4.3-3)
где – плотность воспроизводящей величины Ζ.
Желательно обеспечить заданную верность воспроизведения при минимальном количестве получаемой информации. Поэтому среди множества функций , удовлетворяющих условию (4.3-2), целесообразно выбрать такую, которая обеспечивает наименьшее I(Z,U).
Минимальное количество информации в одной случайной величине Ζ относительно другой U, при котором удовлетворяется заданное требование к верности воспроизведения величины U, называется ε-энтропией величины U и обозначается :
(4.3-4)
при
V(Z,U) ≤ ε2 . (4.3-5)
Используя безусловную и условную дифференциальные энтропии величины U, выражение (3.63) можно представить в виде
, (4.3-6)
где — условная плотность вероятности того, что в тех случаях, когда был принят сигнал z, передавался сигнал u.
Пример 4.3-1. Найти источника информации, ансамбль состояний которого описывается нормально распределенной случайной величиной U с дисперсией при верности воспроизведения .
Будем считать, что заданная верность воспроизведения обусловлена действием аддитивной статистически не связанной с сигналом помехой Ξ, причем Μ [Ξ] =0 и Μ[Ξ] = ε. Передаваемый сигнал u рассматриваем как сумму воспроизводящего сигнала z и помехи u = z + .
Так как в данном случае в выражении (4.3-6) полностью определяется помехой [hz(U) = hz(Z + Ξ) = h(Ξ)], то
где h(Ξ) — дифференциальная энтропия помехи; p(ξ) — плотность распределения помехи Ξ.
Можно показать (например, методом неопределенных множителей Лагранжа), что при ограничении на дисперсию случайной величины максимальной дифференциальной энтропией обладает нормальное распределение. Поэтому получаем
h(U) = log σ, h(Ξ) = log ε,
откуда
Hε(U) = log σ – log ε = (1/2) log (σ2/ε2). (4.3-7)
Так как σ определяет среднюю мощность Р сигнала, а ε — среднюю мощность ρ помехи Ξ, то выражение (4.3-7) характеризует зависимость эпсилон-энтропии от величины , называемой отношением сигнал/помеха.
При заданном отношении сигнал/помеха значение H(U) для нормально распределенной случайной величины является максимально возможным.
Для произвольно распределенной случайной величины U при том же критерии верности и малых ε (когда H(U) велико) справедливо приближенное равенство
Hε(U) ≈ h(U) – log ε. (4.3-8)
Эпсилон - производительность непрерывного источника сообщений.
Под конкретным непрерывным сообщением (t) подразумевают некоторую реализацию случайного процесса длительностью Т. Источник непрерывных сообщений характеризуется ансамблем его реализаций. Наиболее плодотворной оказалась модель непрерывного сообщения в виде эргодического случайного процесса.
Для определения производительности источника непрерывных сообщений воспользуемся подходом и результатами раздела 4.3, где определена ε-энтропия случайной величины.
Под ε-производительностью источника непрерывных сообщений Ηε(z) понимают минимальное количество информации, которое необходимо создать источнику в единицу времени, чтобы любую реализацию (t) можно было воспроизвести с заданной вероятностью ε.
Допустим, что (t) воспроизводится реализацией uT(t). Наблюдаемые реализации следует рассматривать, как сигналы, обладающие ограниченным, хотя возможно и достаточно широким спектром F.
При достаточно большой длительности Т как (t), так и uT(t) могут быть представлены N-мерными (N = 2FT) векторами () и (), координатами которых являются отсчеты. Ансамбли сообщений {(t)} и воспроизводящих сигналов {uT(t)} характеризуют при этом N-мерными случайными векторами Ζ и U, составляющими которых являются соответственно случайные величины Ζ1, Z2, .., ZN и U1, U2, .., UN. Статистическое описание каждого из ансамблей задается N-мерными плотностями распределения вероятностей p(Ζ) = p() и p(U) = p(). Связь между ансамблями отражают условные плотности распределений pu(Z) = = p(/) и pz(U) = p(/), а также совместная плотность распределения вероятностей
p(Z,U) = p(;).
Количество взаимной информации N-мерных случайных векторов Ζ и U (для одного из них относительно второго), определяется соотношением (см. (2.1-15) и (2.1-19))
(4.3-9)
где интегралы являются N-мерными.
Используем, как и ранее, среднеквадратический критерий верности (Z,U), который в рассматриваемом случае имеет вид
где ρ(Z,U) представляет собой квадрат расстояния l(Z,U) в N-мерном евклидовом пространстве.
Количество информации, приходящееся в среднем на один отсчет дискретизованных сигналов ZT(t) и UT(t), определяется выражением
Тогда в соответствии с определением для ε-пропорциональности источника непрерывных сообщений Нε(Z) запишем
Hε(Z) = (4.3-10)
при выполнении условия
θ(Z, U) ≤ ε2.
Величина ν характеризует скорость формирования источником отсчетов (ν = 2F).
Пример 4.3-2. Определить ε-производительность источника, формирующего со скоростью ν1 некоррелированные отсчеты стационарного нормального случайного сигнала с дисперсией σ2.
Воспользовавшись полученным в (3.65) значением ε-энтропии для нормально распределенной случайной величины, найдем
Возможности воспроизведения любого сообщения zT(t) с заданной верностью можно дать геометрическое толкование. Поскольку все реализации эргодического процесса достаточно большой длительности являются типичными и обладают практически одной и той же средней мощностью, концы соответствующих им векторов в N-мерном пространстве сообщений составляют непрерывное множество точек, равноудаленных от начала координат (гиперсферу).
Конечное подмножество воспроизводящих сигналов UT(t) размещается в центрах непересекающихся правильных сферических N-угольников (ε-областей), на которое гиперсфера разбивается без промежутков. Размеры
ε-областей определены заданной верностью воспроизведения сообщений. Если источником реализуется сообщение z*T(t), конец вектора которого должен попасть в ε-область сигнала u*T(t), то воспроизводится сигнал u*T(t).
Следует отметить, что заданная верность воспроизведения будет достигнута с вероятностью, близкой к единице, только при достаточно большой длительности сообщений, когда погрешностью от замены непрерывных реализаций последовательностями отсчетов можно будет пренебречь. Для уменьшения указанной погрешности при ограниченной длительности сообщений Т необходимо увеличивать число отсчетов N. В пределе при N→∞ получим непрерывные реализации.
В вычислении ε - производительности источника и геометрическом толковании возможности воспроизведения сообщений с заданной верностью принципиально ничего не изменяется. Следует лишь учесть, что N-мерное евклидово пространство сообщений становится гильбертовым и мерой близости двух сигналов должно быть расстояние в этом пространстве.
Лекция 5. Каналы связи. Кодирование в каналах связи
5.1. Информационный канал.
Основные понятия и определения
Канал информационный - это совокупность устройств, объединённых линиями связи, предназначенных для передачи информации от источника информации (начального устройства канала) до её приёмника (конечного устройства канала).
Линии связи обеспечивают прохождение информационных сигналов между устройствами канала. Информация обычно передаётся при помощи электрического тока (по проводам), света (по оптоволокну), электромагнитных волн радиодиапазона (в пространстве) и, редко, звука (в плотной среде: атмосфере, воде и т.п.) и прочих.
Устройства канала связи - это, как правило, репитеры, просто передающие усиленным принятый сигнал (пример, радиорелейные линии). К устройствам канала иногда относят и кодеры/декодеры, но в только тех случаях, когда кодирование/декодирование происходит с высокой скоростью, не требующей её специального учёта, как замедляющего фактора; обычно же кодеры/декодеры относят к источникам или приёмникам информации.
Технические характеристики канала определяются принципом действия входящих в него устройств, видом сигнала, свойствами и составом физической среды, в которой распространяются сигналы, свойствами применяемого кода.
Эффективность канала характеризуется скоростью и достоверностью передачи информации, надёжностью работы устройств и задержкой сигнала во времени.
Задержка сигнала во времени - это интервал времени от отправки сигнала передатчиком до его приёма приёмником.
Математически канал задается множествами допустимых сообщений на входе и на выходе и набором условных вероятностей получения сигнала на выходе при входном сигнале x.
Условные вероятности описывают статистические свойства «шумов» (или помех), искажающих сигнал в процессе передачи. Когда при и при , канал называется каналом без «шумов».
В соответствии со структурой входных и выходных сигналов выделяют дискретные и непрерывные каналы. В дискретных каналах сигналы на входе и выходе представляют собой последовательность символов одного или двух (по одному для входа и выхода) алфавитов. В непрерывных каналах входной и выходной сигналы представляют собой функции от непрерывного параметра - времени. Бывают также смешанные или гибридные каналы, но тогда обычно рассматривают их дискретные и непрерывные компоненты раздельно. Далее рассматриваются только дискретные каналы.
Способность канала передавать информацию характеризуется числом - пропускной способностью или ёмкостью канала (обозначение – ). Для случая канала без шума формула расчёта ёмкости канала имеет вид
,
где - число всех возможных сигналов за время .
Пример. Пусть алфавит канала без «шумов» состоит из двух символов - 0 и 1, длительность секунд каждый. За время успеет пройти сигналов, всего возможны различных сообщений длиной . В этом случае
бод.
Кодирование/декодирование; модуляция/демодуляция в канале
На рис.5.1-1 приведена схема, на которой изображен процесс прохождения информации по двоичному каналу с взятыми для примера характеристиками. Здесь для кодирования используется уровень сигнала: низкий для 0 и высокий для 1. Недостатки этого способа проявляются в случаях, когда нужно передавать много сплошных нулей или единиц. Малейшее рассогласование синхронизации между приёмником и передатчиком приводит тогда к неисправимым ошибкам. Кроме того, многие носители информации, в частности, магнитные, не могут поддерживать длительный постоянный уровень сигнала.
Рис. 5.1-1.
Для передачи информации используется обычно другой способ, когда для представления 0 и 1 используются две разные частоты, отличающиеся друг от друга ровно в два раза (см. рис. 5.1-2) - это так называемая частотная модуляция (ЧМ или FM).
Рис. 5.1-2.
При таком кодировании, если длительность сигнала 1 -, то 0 - .
Рассчитаем ёмкость этого канала. Нужно рассчитать . Пусть , тогда получается, что нужно рассчитать сколькими способами можно разбить отрезок длины отрезками длины 2 и 1. Получаем, что , где первое слагаемое - это количество способов, которыми можно разбить отрезок длины п п отрезками длины 1, второе слагаемое - это количество способов, которыми можно разбить отрезок длины п (п – 2) отрезками длины 1 и одним отрезком длины 2, третье слагаемое - это количество способов, которыми можно разбить отрезок длины п (п – 4) отрезками длины 1 и двумя отрезками длины 2 и т.д. Таким образом, . Вследствие того, что для любых , получается, что
;
;
т.е. при . Если положить, что , то , …- это последовательность , т.е. числа Фибоначчи. C XIX века для вычисления -го члена последовательности Фибоначчи известна формула
Таким образом: бод.
При использовании частотной модуляции на практике нули, как правило, кодируются в два раза плотнее. Это достигается тем, что учитываются не уровни сигнала, а смена уровня (полярности). Если частота соответствует 1, то с частотой производится проверка уровня сигнала. Если он меняется, то это сигнал 1, если нет, то - 0. На практике - это частота синхронизации, т.е. частота импульса, который независимо от данных меняет полярность сигнала: 0 не генерирует, а 1– генерирует (см. рис. 5.1-3).
Рис. 5.1-3.
Для записи информации на первые магнитные диски и ленты использовался метод FM. На гибкие диски 5.25" и 3.5" информация записывается методом MFM (Modified FM) - модификацией метода FM, позволяющей в 2 раза повысить плотность записи. Это достигается тем, что частота синхронизации увеличивается вдвое. MFM можно использовать с теми же физическими каналами, что и FM, потому что импульсы синхронизации не передаются перед 1 и первым 0 в серии нулей (см. рис. 5.1-4).
Рис. 5.1-4.
Метод записи с групповым кодированием, RLL - Run Limited Length, не использует импульсы синхронизации, применяется, в частности, в жестких дисках "винчестер'' и существует в нескольких разновидностях. Одна из них основана на замене тетрад байта на 5-битные группы. Эти группы подбираются таким образом, чтобы при передаче данных нули не встречались подряд более двух раз, что делает код самосинхронизирующимся. Например, тетрада 0000 заменяется группой бит 11001, тетрада 1000 - 11010, тетрада 0001 - 11011, тетрада 1111 - 01111 (см. рис. 5.1-5). Существуют разновидности RLL, в которых заменяются последовательности бит различной длины. Кодирование MFM или FM можно представить как частный случай RLL.
Рис. 5.1-5.
При необходимости передачи записанных с помощью некоторого кода сообщений по данному каналу приходиться преобразовывать эти сообщения в допустимые сигналы канала, т.е. производить надлежащее кодирование, а при приеме данных - декодирование. Кодирование целесообразно производить так, чтобы среднее время, затрачиваемое на передачу, было как можно меньше. Получается, что исходному входному алфавиту нужно однозначно сопоставить новый алфавит, обеспечивающий большую скорость передачи. В этом случае возникает явление задержки или запаздывания.
Поясним последнее на примере. Пусть источник сообщений посылает через промежутки времени длиной (т.е. со скоростью ) независимые символы ,,, с вероятностями 1/2, 1/4, 1/8, 1/8, т.е., можно сказать, что источник характеризуется некоторой дискретной с.в. . Пусть канал - без шумов. Символ либо передаётся по каналу, если тот свободен, либо ожидает (помещается в память) до тех пор, пока канал не освободится. Выберем в качестве кода для передачи символов источника по каналу следующий: - 00, - 01, - 10, - 11. Пусть время, необходимое для передачи как 0, так и 1, равно . Тогда если , то за время между появлениями двух последовательных значений кодовое значение успеет передаться и канал освобождается. Если же , то - й символ появится в момент , а его кодовое обозначение будет передано по каналу в момент . Следовательно, промежуток времени между появлением - го символа и моментом его получения равен , т.е. этот промежуток стремится к бесконечности при и передача будет вестись с неограниченным запаздыванием. Выбором более удачного кода (например, Хаффмана) можно увеличить скорость передачи.
Следующий, основной факт теории передачи информации или основная теорема о кодировании при наличии помех позволяет при знании емкости канала и энтропии передатчика вычислить максимальную скорость передачи данных в канале.
Т е о р е м а 5.1-1 (основная теорема Шеннона о кодировании). Пусть источник характеризуется дискретной с.в. X. Рассматривается канал с шумом, т.е. для каждого передаваемого сообщения задана вероятность ε его искажения в процессе передачи (вероятность ошибки). Тогда существует такая скорость передачи u, зависящая только от X, что ε > 0 ũ < u сколь угодно близкая к u такая, что существует способ передавать значения X со скоростью ũ и с вероятностью ошибки меньшей ε, причём u
Упомянутый способ образует помехоустойчивый код. Нетрудно заметить, что приведённая теорема представляет собой другую формулировку рассмотренной в разделе 2 лекции 3 основной теоремы кодированя.
Кроме того, Фано доказана следующая обратная теорема о кодирова-
нии при наличии помех.
Т е о р е м а 5.1-2. Для ũ > u можно найти такое положительное число ε, что в случае передачи информации по линии связи со скоростью ũ вероятность ошибки ε передачи каждого символа сообщения при любом методе кодирования и декодирования будет не меньше ε (ε, очевидно, растёт вслед за ростом ũ).
5.2. Информационные характеристики и модели
дискретных каналов связи.
Основные понятия и определения.
Дискретным каналом называют совокупность средств, предназначенных для передачи дискретных сигналов. Такие каналы широко используются, например, при передаче данных, в телеграфии, радиолокации.
Дискретные сообщения, состоящие из последовательности знаков алфавита источника сообщений (первичного алфавита) , преобразуются в кодирующем устройстве в последовательности символов. Объем m алфавита символов (вторичного алфавита) , как правило, меньше объема l алфавита знаков, но они могут и совпадать.
Материальным воплощением символа является элементарный сигнал, получаемый в процессе манипуляции — дискретного изменения определенного параметра переносчика информации. Элементарные сигналы формируются с учетом физических ограничений, накладываемых конкретной линией связи. В результате манипуляции каждой последовательности символов ставится в соответствие сложный сигнал. Множество сложных сигналов конечно. Они различаются числом, составом и взаимным расположением элементарных сигналов.
Термины «элементарный сигнал» и «символ», так же как «сложный сигнал» и «последовательность символов», в дальнейшем будут использоваться как синонимы.
Информационная модель канала с помехами задается множеством символов на его входе и выходе и описанием вероятностных свойств передачи отдельных символов. В общем случае канал может иметь множество состояний и переходить из одного состояния в другое как с течением времени, так и в зависимости от последовательности передаваемых символов.
В каждом состоянии канал характеризуется матрицей условных вероятностей p() того, что переданный символ ui будет воспринят на выходе как символ νj. Значения вероятностей в реальных каналах зависят от многих различных факторов: свойств сигналов, являющихся физическими носителями символов (энергия, вид модуляции и т.д.), характера и интенсивности воздействующих на канал помех, способа определения сигнала на приемной стороне.
При наличии зависимости переходных вероятностей канала от времени, что характерно практически для всех реальных каналов, он называется нестационарным каналом связи. Если эта зависимость несущественна, используется модель в виде стационарного канала, переходные вероятности которого не зависят от времени. Нестационарный канал может быть представлен рядом стационарных каналов, соответствующих различным интервалам времени.
Канал называется с «памятью» (с последействием), если переходные вероятности в данном состоянии канала зависят от его предыдущих состояний. Если переходные вероятности постоянны, т.е. канал имеет только одно состояние, он называется стационарным каналом без памяти. Под k-ичным каналом подразумевается канал связи, у которого число различных символов на входе и выходе одинаково и равно k.
Стационарный дискретный двоичный канал без памяти однозначно определяется четырьмя услов ными вероятностями: р(0/0), р(1/0), р(0/1), р(1/1).
0 p(0/0) 0 Такую модель канала принято изображать в виде
p(0/1) графа, представленного на рис. 5.2-1(a), где р(0/0);
Вход Выход р(1/1) – вероятности неискаженной передачи сим-
p(1/0) волов, а р(0/1) и р(1/0) — вероятности искажения
1 p(1/1) 1 (трансформация) символов 0 и 1 соответственно.
рис. 5.2-1(a). Если вероятности искажения символов можно
принять равными, т. е. p(0/1) ≈ p(1/0) = q то такой канал называют двоичным симметричным каналом [при р(0/1) р(1/0) канал называется несимметричным]. Граф двоичного симметричного канала изображен на рис. 5.2-1(b); здесь - это вероятность безошибочной передачи бита, а - вероятность передачи бита с ошибкой (или cимволы на выходе канала правильно принимают с вероятностью p и неправильно – с вероятностью 1 – p = q.). Предполагается, что в таком канале ошибки происходят независимо. Математическая модель упрощается.
Именно этот канал исследовался наиболее интенсивно не столько в силу своей практической значимости (многие реальные каналы описываются им весьма приближенно), сколько в силу простоты математического описания.
Рис. 5.2-1(b).
Двоичный симметричный канал реализует схему Бернулли, поэтому вероятность передачи бит по двоичному симметричному каналу с ошибками равна
Пример 5.2-1. Вероятность передачи одного бита информации с ошибкой равна и нас интересует вероятность безошибочной передачи 1000 бит (125 байт). Искомую вероятность равна , т.е. она ничтожно мала.
Важнейшие результаты, полученные для двоичного симметрического канала, распространены на более широкие классы каналов.
Следует отметить еще одну модель канала, которая имеет большое практическое значение. Это дискретный канал со стиранием. Для него характерно, что алфавит выходных символов отличается от алфавита входных символов. На входе, как и ранее, символы 0 и 1, а на выходе канала фиксируются состояния, при которых сигнал с равным основанием может быть отнесен как к единице, так и к нулю. На месте такого символа не ставится ни нуль, ни единица: состояние отмечается дополнительным символом стирания S. При декодировании значительно легче исправить такие символы, чем ошибочно определенные.
На рис. 5.2-2 приведены модели стирающего канала при отсутствии (рис. 5.2-2 ,а) и при наличии (рис. 5.2-2, 6) трансформации символов.
а) 0 p(0/0) 0 б) 0 p(0/0) 0
p(0/s) p(0/s)
s p(0/1) s
p(0/s) p(1/0) p(1/s)
1 p(1/1) 1 1 p(1/1) 1
рис. 5.2-2
Скорость передачи информации по дискретному каналу.
Характеризуя дискретный канал связи, используют два понятия скорости передачи: технической и информационной.
Под технической скоростью передачи VT, называемой также скоростью манипуляции, подразумевают число элементарных сигналов (символов), передаваемых по каналу в единицу времени. Она зависит от свойств линии связи и быстродействия аппаратуры канала.
С учетом возможных различий в длительностях символов скорость
Vτ = 1/τср (5.2-1)
где — среднее значение длительности символа.
При одинаковой продолжительности всех передаваемых символов = τ.
Единицей измерения технической скорости служит бод — скорость, при которой за одну секунду передается один символ.
Информационная скорость, или скорость передачи информации, определяется средним количеством информации, которое передается по каналу в единицу времени. Она зависит как от характеристик данного канала связи, таких, как объем алфавита используемых символов, техническая скорость их передачи, статистические свойства помех в линии, так и от вероятностей поступающих на вход символов и их статистической взаимосвязи.
При известной скорости манипуляции VT скорость передачи информации по каналу Ī(V,U) задается соотношением
Ī(V,U) = Vτ I(V,U) (5.2-2)
где I(V,U) — среднее количество информации, переносимое одним символо.
Пропускная способность дискретного канала без помех.
Для теории и практики важно выяснить, до какого предела и каким путем можно повысить скорость передачи информации по конкретному каналу связи. Предельные возможности канала по передаче информации характеризуются его пропускной способностью.
Пропускная способность канала Сд равна той максимальной скорости передачи информации по данному каналу, которой можно достигнуть при самых совершенных способах передачи и приема:
Сд = max Ī(V,U) = max Vτ I(V,U) (5.2-3)
При заданном алфавите символов и фиксированных основных характеристиках канала (например, полосе частот, средней и пиковой мощности передатчика) остальные характеристики должны быть выбраны такими, чтобы обеспечить наибольшую скорость передачи по нему элементарных сигналов, т. е. обеспечить максимальное значение VТ. Максимум среднего количества информации, приходящейся на один символ принятого сигнала I(V,U), определяется на множестве распределений вероятностей между символами .
Пропускная способность канала, как и скорость передачи информации по нему, измеряется числом двоичных единиц информации в секунду (дв. ед./с).
Так как в отсутствие помех имеет место взаимно-однозначное соответствие между множеством символов {ν} на выходе канала и {u} на его входе, то I(V,U) = =I(U,V) = H(U). Максимум возможного количества информации на символ равен log m, где m — объем алфавита символов, откуда пропускная способность дискретного канала без помех
Сд = Vτ log m (5.2-4)
Следовательно, для увеличения скорости передачи информации по дискретному каналу без помех и приближения ее к пропускной способности канала последовательность букв сообщения должна подвергнуться такому преобразованию в кодере, при котором различные символы в его выходной последовательности появлялись бы по возможности равновероятно, а статистические связи между ними отсутствовали бы. Доказано что это выполнимо для любой эргодической последовательности букв, если кодирование осуществлять блоками такой длины, при которой справедлива теорема об их асимптотической равновероятности.
Расширение объема алфавита символов m приводит к повышению пропускной способности канала, однако возрастает и сложность технической реализации.
Пропускная способность дискретного канала с помехами.
При наличии помех соответствие между множествами символов на входе и выходе канала связи перестает быть однозначным. Среднее количество информации I(V,U), передаваемое по каналу одним символом, определяется в этом случае соотношение
I(V,U) = H(V) – HU(V) = H(V) – HV(V) (5.2-5)
Если статистические связи между символами отсутствуют, энтропия сигнала на выходе линии связи равна
(5.2-6)
При наличии статистической связи энтропию определяют с использованием цепей Маркова. Поскольку алгоритм такого определения ясен и нет необходимости усложнять изложение громоздкими формулами, ограничимся здесь только случаем отсутствия связей.
Апостериорная энтропия характеризует уменьшение количества переданной информации вследствие возникновения ошибок. Она зависит как от статистических свойств последовательностей символов, поступающих на вход канала связи, так и от совокупности переходных вероятностей, отражающих вредное действие помехи.
Если объем алфавита входных символов u равен m1, а выходных символов υ – m2, то
HU(V) = – (5.2-7)
Подставив выражения (4.18) и (4.19) в (4.17) и проведя несложные преобразования, получим
.
Скорость передачи информации по каналу с помехами
.
Считая скорость манипуляции VT предельно допустимой при заданных технических характеристиках канала, величину I(V,U) можно максимизировать, изменяя статистические свойства последовательностей символов на входе канала посредством преобразователя (кодера канала). Получаемое при этом предельное значение СД скорости передачи информации по каналу называют пропускной способностью дискретного канала связи с помехами:
СД = (5.2-8)
где р{u} — множество возможных распределений вероятностей входных сигналов.
Важно подчеркнуть, что при наличии помех пропускная способность канала определяет наибольшее количество информации в единицу времени, которое может быть передано со сколь угодно малой вероятностью ошибки.
Напомним, что теория помехоустойчивого кодирования базируется на результатах исследований, проведенных Шенноном и сформулированных им в виде теоремы (см.также разделы 3.2 и 5.1):
1) при любой производительности источника сообщений, меньшей, чем пропускная способность канала, существует такой способ кодирования, который позволяет обеспечить передачу всей информации, создаваемой источником сообщений, со сколь угодно малой вероятностью ошибки;
2) не существует способа кодирования, позволяющего вести передачу информации со сколь угодно малой вероятностью ошибки, если производительность источника сообщений больше пропускной способности канала.
Хотя доказательство этой теоремы, предложенное Шенноном, в дальнейшем подвергалось более глубокому и строгому математическому представлению, идея его осталась неизменной. Доказывается только существование искомого способа кодирования, для чего находят среднюю вероятность ошибки по всем возможным способам кодирования и показывают, что она может быть сделана сколь угодно малой. При этом существует хотя бы один способ кодирования, для которого вероятность ошибки меньше средней.
Шенноновское доказательство теоремы приведено в приложении 1.
Проведём обсуждение теоремы.
В первую очередь отметим фундаментальность полученного результата. Теорема устанавливает теоретический предел возможной эффективности системы при достоверной передаче информации. Ею опровергнуто казавшееся интуитивно правильным представление о том, что достижение сколь угодно малой вероятности ошибки в случае передачи информации по каналу с помехами возможно лишь при введении бесконечно большой избыточности, т. е. при уменьшении скорости передачи до нуля. Из теоремы следует, что помехи в канале не накладывают ограничений на точность передачи. Ограничение накладывается только на скорость, при которой может быть достигнута сколь угодно высокая достоверность передачи.
Теорема неконструктивна в том смысле, что в ней не затрагивается вопрос о путях построения кодов, обеспечивающих указанную идеальную передачу.
Следует отметить, что при любой конечной скорости передачи информации вплоть до пропускной способности сколь угодно малая вероятность ошибки достигается лишь при безграничном увеличении длительности кодируемых последовательностей знаков. Таким образом, безошибочная передача при наличии помех возможна лишь теоретически.
Обеспечение передачи информации с весьма малой вероятностью ошибки и достаточно высокой эффективностью возможно при кодировании чрезвычайно длинных последовательностей знаков. На практике степень достоверности и эффективности ограничивается двумя факторами: размерами и стоимостью аппаратуры кодирования и декодирования и временем задержки передаваемого сообщения.
Из всего этого, в частности следует, что к пропускной способности канала связи с помехами можно приблизиться, кодируя эргодическую последовательность букв источника сообщений блоками такой длины, при которой справедлива теорема об асимптотической равновероятности длинных последовательностей.
Произвольно малая вероятность ошибки оказывается достижимой только в пределе, когда длина блоков становится бесконечной.
При удлинении кодируемых блоков возрастает сложность технической реализации кодирующих и декодирующих устройств и задержка в передаче сообщений, обусловленная необходимостью накопления требуемого числа букв в блоке. В рамках допустимых усложнений на практике при кодировании могут преследоваться две цели: либо при заданной скорости передачи информации стремятся обеспечить минимальную ошибку, либо при заданной достоверности – скорость передачи, приближающуюся к пропускной способности канала.
Предельные возможности канала никогда не используются полностью. Степень его загрузки характеризуется коэффициентом использования канала
(5.2-9)
где производительность источника сообщений; СД — пропускная способность канала связи.
Поскольку нормальное функционирование канала возможно, как показано далее, при изменении производительности источника в пределах 0 ≤ ≤ СД , λ теоретически может изменяться в пределах от 0 до 1.
Пример 5.2-1. Определить пропускную способность двоичного симметричного канала (ДСК) со скоростью манипуляции VT в предположении независимости передаваемых символов.
Запишем соотношение (5.2-7) в следующем виде:
HU (V) = –
Воспользовавшись обозначениями на графе (рис. 5.2-3), можем записать
HU (V) = – p(0)[(1 – p) log2 (1 – p) +p log2 p] –
– p(1)[(1 – p) log2 (1 – p) +p log2 p] =
= [p(0) + p(1)][(1 – p) log2 (1 – p) +p log2 p]
Так как p(0) + p(1) = 1, то HU (V) = – (1 – p) log2 (1 – p) – p log2 p.
Величина HU (V) не зависит от вероятностей входных символов, что является следствием симметрии канала.
Следовательно, пропускная способность
CД = VT [max H(V) + (1 – p) log2 (1 – p) +p log2 p]
Максимум H(V) достигается при равенстве вероятностей появления символов, он равен 1. Отсюда
CД = VT [1 + (1 – p) log2 (1 – p) +p log2 p] (5.2-9)
0 1 – p 0 CД , дв.ед./с
P 1
0,5
p
1 1 – p 1 0 0,1 0,2 0,3 0,4 0,5 p
рис. 5.2-3 рис. 5.2-4
График зависимости пропускной способности ДСК от p показан на рис. 5.2-4. При увеличении вероятности трансформации символа с 0 до 1/2 СД(р) уменьшается от 1 до 0. Если p = 0, то шум в канале отсутствует и его пропускная способность равна 1. При р = 1/2 канал бесполезен, так как значения символов на приемной стороне с равным успехом можно устанавливать по результатам подбрасывания монеты (герб – 1, решетка – 0). Пропускная способность канала при этом равна нулю.
5.3. ИНФОРМАЦИОННЫЕ ХАРАКТЕРИСТИКИ
НЕПРЕРЫВНЫХ КАНАЛОВ СВЯЗИ
Модели непрерывных каналов связи.
Каналы, используемые для передачи непрерывных сигналов, принято называть непрерывными. Такие каналы до сих пор находят широкое применение, например, в технике телефонной связи, радиовещании.
Реальные непрерывные каналы представляют собой сложные инерционные нелинейные объекты, характеристики которых случайным образом изменяются во времени. Для анализа таких каналов разработаны математические модели различных уровней сложности и степени адекватности реальным каналам. Модели, получившие наиболее широкое распространение, — это разновидности гауссова канала.
Под гауссовым каналом понимают математическую модель реального канала, построенную при следующих допущениях:
1) основные физические параметры канала являются известными детерминированными величинами;
2) полоса пропускания канала ограничена частотой FK герц;
3) в канале действует аддитивный гауссовый белый шум — аддитивная флуктуационная помеха ограниченной мощности с равномерным частотным спектром и нормальным распределением амплитуд.
Предполагается также, что по каналу передаются сигналы с постоянной средней мощностью, статистические связи между сигналами и шумом отсутствуют, ширина спектра сигнала и помехи ограничена полосой пропускания канала.
При рассмотрении информационных характеристик канала (скорости передачи, пропускной способности, коэффициента использования) основное внимание будет уделено гауссовому каналу.
Скорость передачи информации по непрерывному каналу.
Скорость передачи информации по непрерывному каналу — это количество информации, которое передается в среднем принятыми непрерывными сигналами υ(t), относительно переданных u(t) в единицу времени.
Поскольку полоса пропускания канала всегда ограничена, непрерывные сообщения на достаточно продолжительном интервале времени Т с некоторой погрешностью могут быть представлены последовательностями отсчетов. С учетом наличия корреляционных связей между отсчетами и конечной верности воспроизведения, обусловленной воздействием помехи, для средней скорости Ĩ(VU) передачи информации дискретизованным сигналом получаем
Ĩ(VU) = I(VU) /T (5.3-1)
где I(VU) определяется выражением, аналогичным (5.2-5).
По мере увеличения длительности Т эта скорость возрастает, так как при каждом новом отсчете реализации уточняются. В пределе при Т→∞ N-мерные распределения становятся бесконечномерными и выражение (5.3-1) будет определять скорость передачи информации по непрерывному каналу:
Переход к пределу при Т→∞ также означает усреднение скорости по всем возможным сигналам.
Степень вредного воздействия помехи с известными статистическими свойствами на различные ансамбли входных сигналов различна. Вследствие этого различны и значения скорости передачи информации.
Пропускная способность непрерывного канала связи.
Максимально возможную скорость Сн передачи информации по непрерывному каналу с известными техническими характеристиками называют пропускной способностью непрерывного канала:
Сн = (5.3-2)
где максимум находят по всем возможным ансамблям входных сигналов.
Определим скорость передачи информации по гауссову каналу.
Пусть по гауссову каналу передается непрерывный сигнал uT(t) из ансамбля {uT(t)} со средней мощностью Рu, равной дисперсии. На выходе канала получим сигнал υT(t) из ансамбля {vT(t)}, искаженный гауссовой помехой ξ(t), среднюю мощность которой обозначим Ρξ (Ρξ = ).
Будем считать, что длительность Т сигнала uT(t) достаточно велика, чтобы с приемлемой погрешностью можно было заменить uT(t) и νT (t) последовательностями отсчетов, взятых через интервалы Δt = 1/(2Fк), где Fк — полоса пропускания канала.
В соответствии с (5.2-5) выражение для среднего количества информации, передаваемой сигналом vT(t), принимает вид
I(V,U) = H(V) – HU (V) (5.3-3)
где Н(V) и HU (V) – априорная и апостериорная энтропии N-мерного случайного вектора V со случайными составляющими V1, V2, ...,VN.
Поскольку помеха в канале аддитивна и статистически не связана с вход-
ным сигналом, справедливо равенство
HU (V) = HU (U + Ξ) = H(Ξ) (5.3-4)
Величина Н(Ξ) в (5.3-4) представляет собой энтропию N-мерного случайного вектора помехи Ξ со случайными компонентами Ξ1, Ξ2, ..., Ξ Ν.
Учитывая, что значения белого шума в моменты отсчетов будут некоррелированными, запишем
H(Ξ) = 2FкTh(ξ) (5.3-5)
где h(ξ) – дифференциальная энтропия одного отсчетного значения помехи.
При нормальном распределении помехи с дисперсией σ она составит
h(ξ) = log (5.3-6)
Будем считать, что отсчетные значения входных функций uT(t) независимы. При воздействии на них независимых значений помехи отсчетные значения выходных сигналов VT(t) также независимы.
Тогда H(V) можно выразить через дифференциальную энтропию h(V) одного отсчета выходного сигнала:
H(V) = 2FкTh(V). (5.3-7)
Подставив (5.3-6) и (5.3-7) в (5.3-3), получим
I(V,U) = 2FкT [h(V) – ] (5.3-8)
Соответственно скорость передачи информации по непрерывному каналу связи
(V,U) = 2Fк [h(V) – ] (5.3-9)
Определим теперь пропускную способность гауссова канала.
Найдем ансамбль входных сигналов, при котором обеспечивается максимальное значение h(V) в выражении (5.3-8).
Так как выходные сигналы образуются в результате суммирования входных сигналов и помехи, средние мощности которых ограничены, то и средняя мощность выходных сигналов ограничена. Для таких сигналов, как уже упоминалось, наибольшее значение h(V) достигается при распределении V по нормальному закону. Известно также, что сумма двух нормально распределенных случайных величин имеет такую же функцию распределения с суммарной дисперсией. Отсюда следует, что при нормально распределенной помехе ξ выходной сигнал V будет распределен по нормальному закону лишь при нормально распределенном входном сигнале u.
Наибольшее значение энтропии h(V), а следовательно, и максимальная скорость передачи информации могут быть достигнуты при использовании нормальных центрированных случайных сигналов. Центрированность сигнала при заданной средней мощности соответствует максимальному значению дисперсии.
Они также должны иметь широкий и равномерный энергетический спектр, поскольку только в этом случае можно говорить о независимости отсчетов, что существенно при дискретизации и дальнейшем восстановлении сигналов.
Таким образом, для более полного использования возможностей канала передаваемый сигнал должен обладать свойствами помехи, т. е. должен быть шумоподобным.
Максимальная величина дифференциальной энтропии
h(V) = log (5.3-10)
Подставляя (5.3-9) в (5.3-10), получаем выражение для пропускной способности гауссова канала:
Cн = Fк[log2πe(Pu + Pξ) – log2πe Pξ)] = Fкlog(1 + Pu / Pξ). (5.3-11)
Из полученного выражения следует, что зависимость пропускной способности гауссова канала от ширины полосы пропускания FK нелинейна, поскольку FK также влияет на мощность помехи. Учитывая равномерность энергетического спектра белого шума, представим его мощность Pξ через удельную мощность Р0 на единицу частоты.
Выражение (5.3-11) примет вид
Cн = Fкlog2 [(1 + Pu /(P0 Fк)]. (5.3-12)
Рост пропускной способности канала при неограниченном расширении его полосы пропускания ограничен пределом СM:
(5.3-13)
СM , дв. ед./с Обозначив γ = 1/Fk по правилу Лопиталя
1,44 Pu /P0 находим предел Сн при :
CM = 1,443 Pu /P0
Характер зависимостипредс-
тавлен графиком на рис. 5.3-1
Fk
Рис. 5.3-1
5.4. СОГЛАСОВАНИЕ ФИЗИЧЕСКИХ ХАРАКТЕРИСТИК СИГНАЛА И КАНАЛА
Конкретный канал связи обладает определенными физическими параметрами, от которых зависит возможность передачи по нему тех или иных сигналов. Независимо от назначения непрерывного канала его можно характеризовать тремя основными параметрами: временем, в течение которого он предоставляется для передачи сигнала Тк, шириной полосы пропускания сигнала FK и допустимым превышением сигнала над помехой в канале Hк. Превышение Hк характеризуется разностью максимально допустимого сигнала в канале Pu max и уровня помех Рξ (в логарифмическом масштабе). Для проводных каналов превышение в основном определяется пробивным напряжением и уровнем перекрестных помех, для радиоканалов — возможностями выявления сигнала на соответствующих расстояниях.
Произведение указанных основных параметров канала связи принято называть объемом (емкостью) канала и обозначать VK:
Vk = Tk Fk Hk (5.4-1)
При оценке возможностей передачи сигнала по каналу с заданными фи- зическими характеристиками также ограничиваются рассмотрением трех основных параметров сигнала: его длительности Тс, ширины спектра Fc и превышения над помехой Hс, причем
Hc = log (Pu /Pξ) (5.4-2)
где Рu – средняя мощность передаваемого сигнала; Рξ – средняя мощность помехи в канале.
Превышение Hс связано с возможностями передатчика и дальностью передачи. Чем больше Hс, тем меньше вероятность ошибочного приема.
Аналогично объему канала вводится понятие объема (емкости) Vc передаваемого сигнала:
Vc = Tc Fc Hc (5.4-3)
Как объем сигнала, так и объем канала могут быть представлены в трехмерном пространстве с координатами Т, F, Η (рис. 5.4-1).
Необходимым условием принципиальной возможности неискаженной передачи сигнала по данному каналу является выполнение соотношения
H Vc ≤ Vk (5.4-4)
Hk При этом, однако, могут потребоваться
Hc преобразования для обеспечения доста-
Fc Fk F точных условий передачи, то есть
Tc Tc ≤ Tk , Fc ≤ Fk , Hc ≤ Hk . (5.4-5)
Когда канал имеет меньшую
Tk полосу пропускания, чем практическая
T Рис. 5.4-1 ширина спектра, подлежащего передаче
сигнала, последнюю можно уменьшить за счет увеличения длительности сиг-нала. Объем сигнала при этом сохраняется неизменным. Такое преобразование можно осуществить, например, посредством записи сигнала на магнитную ленту с высокой скоростью и последующего воспроизведения со скоростью, при которой ширина его спектра равна полосе пропускания канала.
Если, наоборот, широкополосный канал предоставляется на время меньшее длительности сигнала, то согласование осуществляется за счет расширения спектра сигнала. Для реализации также может использоваться накопитель на магнитной ленте, однако в данном случае скорость воспроизведения должна быть выше скорости записи.
При низком допустимом уровне превышения сигнала в канале преобразование заключается в уменьшении уровня превышения передаваемого сигнала с одновременным увеличением его длительности путем многократного повторения передачи. Возможны и другие виды преобразования.
Рассмотрим связь между объемом канала и количеством информации, которое можно получить о передаваемом по этому каналу сигнале.
В соответствии с выражением (5.3-11) предельное количество информации, которое может быть передано по каналу связи за время Тк,
Imax(V,U) = Tk Fкlog (1 + Pu /Pξ).
Отсюда следует, что если Рu/Рξ >> 1, то при условии обеспечения посредством преобразования сигнала полного использования физических возможностей канала максимальное количество информации, которое можно получить о сигнале, близко к емкости канала:
Imax(V,U) = Vk = Tk Fкlog (1 + Pu max /Pξ). (5.4-6)
5.5. СОГЛАСОВАНИЕ СТАТИСТИЧЕСКИХ СВОЙСТВ
ИСТОЧНИКА СООБЩЕНИЙ И КАНАЛА СВЯЗИ
Согласование статистических свойств и отражающих их информационных характеристик источника сообщений и канала связи проводится с целью улучшения качества системы передачи. Оценка качества осуществляется по трем основным показателям: достоверности, средней скорости передачи и сложности технической реализации системы, определяющей ее стоимость и надежность. Хотя с точки зрения практики сложность технической реализации может иметь решающее значение, при определении предельных возможностей системы целесообразно ограничиться только первыми двумя показателями.
Достоверность дискретного канала обычно оценивается значением вероятности ошибочного приема одного символа (элементарного сигнала). В случае передачи непрерывных сообщений о достоверности судят по значению среднеквадратической ошибки при воспроизведении сообщения
M[ε2] = M[(w(t) – z(t))2] ,
где w(t) – сообщение, поступающее с выхода канала; z(t) – сообщение на входе канала.
Достоверность характеризует помехоустойчивость информационной системы.
Под скоростью передачи подразумевают среднее количество информации, передаваемое по каналу в единицу времени. Именно эта (а не техническая) скорость формирования символов подлежит согласованию с пропускной способностью канала.
Скорость передачи информации характеризует эффективность системы.
Замечание. Если высоких требований в отношении скорости передачи и достоверности к системе передачи не предъявляется, то согласование статистических (информационных) характеристик источника сообщений и канала связи не является принципиально необходимым.
При преобразовании сообщений в сигналы в этом случае могут преследоваться две основные цели. Одна из них заключается в том, чтобы преобразовать сообщения в такую систему символов (код), чтобы она обеспечивала простоту и надежность аппаратурной реализации информационных устройств и приемлемую их эффективность: простоту аппаратуры различения элементарных сигналов, соответствующих отдельным символам, приемлемое время при их передаче, простоту выполнения в этой системе арифметических и логических действий. Техническая реализация процесса кодирования в таком простейшем виде при непрерывном входном сигнале осуществляется аналого-цифровыми преобразователями.
Другой целью преобразования сообщений является защита их от несанкционированного доступа. Такое преобразование называют шифрованием. Оно может проводиться как на уровне знаков, так и на уровне символов.
В случае отсутствия необходимости в статистическом согласовании источника сообщений с каналом связи вопросы повышения качества функционирования системы решаются для дискретного канала от входа модулятора до выхода демодулятора.
Считается, что символы на вход модулятора поступают равновероятно и статистические связи между ними отсутствуют. Из множества сигналов, удовлетворяющих заданным ограничениям по мощности и полосе частот, для отображения символов отбираются такие, которые в предположении воздействия на них аддитивного гауссова шума обеспечивают наибольшую достоверность приема каждого отдельного символа. Одновременно определяется и структура оптимального приемника. Наиболее полно эти вопросы рассмотрены для случая двоичного канала (m = 2).
Увеличение эффективности и помехоустойчивости системы передачи информации, как показал Шеннон, возможно за счет введения в канал связи кодирующего, а следовательно, и декодирующего устройств, цель которых состоит в статистическом согласовании свойств источника сообщений и канала связи.
Доказанными им теоремами обосновано существование оптимального способа кодирования, при котором достигается скорость передачи информации, сколь угодно близкая к пропускной способности данного канала связи. Под способом кодирования при этом подразумевается совокупность операций по преобразованию сообщений в сигналы и обратного преобразования смеси сигнала с помехами в сообщения, включая операции в части канала «модулятор-демодулятор».
К сожалению, указанные теоремы не дают конструктивных рекомендаций относительно путей реализации оптимального способа кодирования. Определить соответствующую совокупность операций, а следовательно, и структуру оптимальной системы связи пока не удалось даже при ряде допущений, существенно упрощающих модели каналов. Для упрощения задачи переходят к оптимизации системы по частям путем нахождения наилучшего кода при условии оптимально спроектированной части канала «модулятор-демодулятор».
Выяснилась также целесообразность разделения процедур кодирования, обусловленных статистическими свойствами источника сообщений, и процедур кодирования, зависящих от статистических свойств канала связи. Такое разделение способствует лучшему пониманию существа процессов преобразования. С практической точки зрения оно ценно тем, что позволяет реализовать как кодирующее, так и декодирующее устройства из двух фактически независимых блоков: кодера КИ и декодера ДКИ источника и кодера КК и декодера ДКК канала. Рассмотрим особенности статистического согласования различных источников сообщений и каналов связи.
Предположим, что дискретные сообщения, поступающие с источника, обладают избыточностью, а вредным действием помех в канале можно пренебречь, что будет близко к реальности при отношении сигнал/помеха, значительно превышающем единицу. В этом случае учитывать проблему обеспечения помехоустойчивости нет необходимости и остается задача повышения эффективности.
В основной теореме Шеннона о кодировании для дискретного канала без помех утверждается, что посредством преобразования сообщений в статистически независимые и равновероятные символы можно повысить скорость передачи вплоть до пропускной способности этого канала.
Техническая реализация указанной возможности осуществляется кодером источника, обеспечивающим такое кодирование, при котором за счет устранения избыточности снижается среднее число символов, требующихся для выражения знака сообщения. При отсутствии помех это непосредственно дает выигрыш во времени передачи (или в объеме запоминающего устройства), что повышает эффективность системы. Поэтому такое кодирование получило название эффективного или оптимального.
При наличии помех в канале оно позволяет преобразовать входную информацию в последовательность символов, наилучшим образом (в смысле максимального сжатия) подготовленную для дальнейших преобразований.
При статистическом согласовании источника, формирующего дискретные сообщения, не обладающие избыточностью, с каналом, подверженным действию помехи, использование кодера источника не имеет смысла. Однако для повышения достоверности передачи сообщений при минимальном сокращении скорости передачи по каналу дополнительную избыточность необходимо ввести так, чтобы она максимально способствовала устранению вредного действия помехи с определенными статистическими свойствами.
Из теоремы Шеннона о кодировании для дискретного канала с помехами следует неожиданное и фундаментальное заключение о том, что помехи в канале не накладывают ограничений на достоверность передачи. Ограничение накладывается только на скорость передачи, при которой может быть достигнута сколь угодно высокая достоверность. Она не должна превышать пропускной способности дискретного канала с помехами. Количество избыточной информации, необходимое для обеспечения достоверной передачи безызбыточных сообщений, невелико и равно потерям информации в канале, обусловленным действием помехи.
Техническая реализация возможности существенного повышения достоверности передачи осуществляется кодером и декодером канала. Такое кодирование получило название помехоустойчивого (см. раздел 3.3).
В общем случае, когда источник формирует сообщения, обладающие избыточностью, и требуется передавать их по каналу с помехами, целесообразно ввести в канал как кодер (и декодер) источника, так и кодер (и декодер) канала.
Целесообразность устранения избыточности сообщений методами эффективного кодирования с последующим перекодированием помехоустойчивым кодом обусловлена тем, что избыточность источника сообщения в большинстве случаев не согласована со статистическими закономерностями помехи в канале связи и поэтому не может быть полностью использована для повышения достоверности принимаемого сообщения, тогда как обычно можно подобрать подходящий помехоустойчивый код. Кроме того, избыточность источника сообщений часто является следствием весьма сложных вероятностных зависимостей и позволяет обнаруживать и исправлять ошибки только после декодирования всего сообщения, пользуясь сложнейшими алгоритмами и интуицией.
Передача непрерывных сообщений по каналу без помех не рассматривается, поскольку в этом теоретическом случае проблема связи вообще не возникает. Одним импульсом, амплитуда которого на приемной стороне воспринимается с неограниченной точностью, может быть передано бесконечно большое количество информации, что с точки зрения практики абсурдно.
Несколько подробнее остановимся на статистическом согласовании источника непрерывных сообщений с непрерывным каналом, подверженным действию помех. Предельные возможности системы передачи в этом случае определяются следующей теоремой Шеннона.
Т е о р е м а 5.5-1 (Шеннона). Если ε-производительность ε(Ζ) источника непрерывных сообщений не превышает пропускной способности непрерывного канала Сн , то существует такой способ передачи, при котором с вероятностью, сколь угодно близкой к единице, любое полученное сообщение будет отличаться от переданного только в пределах принятой оценки верности воспроизведения. Если же ε(Ζ) > Сн , то такую передачу никаким способом обеспечить невозможно.
Опуская доказательство теорему, поясним возможность осуществления указанного в ней способа передачи, используя геометрическую форму представления сигналов.
Если сообщения должны воспроизводиться с определенной верностью, то из бесконечного множества непрерывных сообщений длительностью Т передавать необходимо только счетное подмножество воспроизводящих сообщений.
Процесс кодирования в этом случае заключается в отождествлении полученного от источника сообщения с ближайшим воспроизводящим и сопоставлении ему конкретного сигнала из множества разрешенных сигналов, специально подобранных для передачи с учетом действующей в канале помехи.
При декодировании полученный сигнал отождествляется с ближайшим разрешенным и ставится в соответствие воспроизводящему сообщению. Ошибки не произойдет, если конец вектора принятого сигнала в гильбертовом пространстве попадет в собственную область соответствующего разрешенного сигнала, размеры которой зависят от средней мощности помехи. Это накладывает ограничения на расстояния между концами векторов разрешенных сигналов. Таким образом, на поверхности гиперсферы, соответствующей определенному уровню средней мощности передаваемых сигналов, можно разместить только ограниченное число разрешенных сигналов, Оно и определяет предельную скорость передачи информации с обеспечением заданного уровня верности.
Поскольку обычно допускается возможность появления любого значения помехи, вероятность воспроизведения другого разрешенного сигнала остается конечной. Однако ещё Шенноном доказано, что она стремится к нулю при неограниченном увеличении длительности передаваемых сигналов.
5.6.* Кодирование в канале как средство
криптографического закрытия информации
В последние годы большое развитие получили интегрированные информационно-вычислительные системы, в частности автоматизированные системы управления и вычислительные сети коллективного пользования. В таких системах концентрируются большие объемы данных, хранимые на машинных носителях, и осуществляется автоматический межмашинный обмен данными, в том числе и на больших расстояниях
Во многих случаях хранимая и передаваемая информация может представлять интерес для лиц, желающих использовать ее в корыстных целях. Последствия от такого несанкционированного использования информации могут быть весьма серьезными. Поэтому уже в настоящее время возникла проблема защиты информации от несанкционированного доступа.
Существует комплекс технических средств защиты информации, включающий системы охраны территории и помещений, регулирования доступа в помещения, устройств идентификации пользователей и др. Ограничимся рассмотрением методов защиты информации от несанкционированного доступа при передаче ее по каналам связи. Рассматриваемые методы защиты обеспечивают такое преобразование сообщений (данных), при котором их исходное содержание становится доступным лишь при наличии у получателя некоторой специфической информации (ключа) и осуществления с ее помощью обратного преобразования. Эти методы называют методами криптографического закрытия информации. Они применяются как для защиты информации в каналах передачи, так и для защиты ее в каналах хранения, в основном в накопителях со сменными носителями (магнитными лентами, дисками), которые легко могут быть похищены.
Преобразования, выполняемые в системах, где используются методы криптографического закрытия информации, можно считать разновидностями процессов кодирования и декодирования, которые получили специфические названия шифрования и дешифрования. Зашифрованное сообщение называют криптограммой.
Современные методы криптографического закрытия информации должны обеспечивать секретность при условии, что противник обладает любым специальным оборудованием, необходимым для перехвата и записи криптограмм, а также в случае, когда ему стал известен не только алгоритм шифрования, но и некоторые фрагменты криптограмм и соответствующего им открытого текста сообщений. Иначе говоря, метод должен предусматривать такое множество возможных ключей, чтобы вероятность определения использованного даже при наличии указанных фрагментов была близка к нулю. Последнее требование является весьма жестким, но его можно удовлетворить.
Методы криптографического закрытия могут быть реализованы как программно, так и аппаратно. При программной реализации в месте шифрования (дешифрования) предполагается наличие процессора. В тех случаях, когда процессор отсутствует или его загрузка нецелесообразна, используется аппаратное закрытие с помощью специальной серийно выпускаемой аппаратуры.
Известно значительное число различных методов криптографического закрытия информации. Рассмотрим некоторые из них в порядке возрастания сложности и надежности закрытия.
Шифр простой подстановки.
Буквы кодируемого сообщения прямо заменяются другими буквами того же или другого алфавита. Если сообщения составляются из k различных букв, то существует k! способов выражения сообщения k буквами этого алфавита, т. е. существует k! различных ключей.
Пример 5.6-1. Зашифруем сообщение CAREFULLY, используя в качестве ключа для шифрования английского текста буквы английского алфавита в соответствии с табл. 5.6-1.
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
U
Q
K
Y
F
H
B
X
V
N
W
R
S
A
J
Z
I
C
G
L
E
T
O
D
P
M
Табл. 5.6-1
Подставляя новые буквы, получаем криптограмму KUCFHERRP.
Метод шифрования прост, но не позволяет обеспечить высокой степени защиты информации. Это связано с тем, что буквы английского языка (как, впрочем, и других языков), имеют вполне определенные и различные вероятности появления. Так как в зашифрованном тексте статистические свойства исходного сообщения сохраняются, то при наличии криптограммы достаточной длины можно с большой достоверностью определить вероятности отдельных букв, а по ним и буквы исходного сообщения.
Шифр Вижинера.
Этот шифр является одним из наиболее распространенных. Степень надежности закрытия информации повышается за счет того, что метод шифрования предусматривает нарушение статистических закономерностей появления букв алфавита.
Каждая буква алфавита нумеруется. Например, буквам английского алфавита ставятся в соответствие цифры от 0 (А = 0) до 25 (Z = 25):
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Ключ представляет собой некоторое слово или просто последовательность букв, которая подписывается с повторением под сообщением. Цифровой эквивалент каждой буквы криптограммы определяется в результате сложения с приведением по модулю 26 цифровых эквивалентов буквы сообщения и лежащей под ней буквы ключа.
Пример 5.4-2. Зашифруем сообщение CAREFULLY кодом Вижинера с ключом PIES.
Запишем буквы сообщения, расположив под ними их цифровые эквиваленты. Аналогично внизу запишем ключ, повторяя его необходимое число раз:
С А R E F U L L Y
2 0 17 4 5 20 11 11 24
P I E S P I E S P
15 8 4 18 15 8 4 18 15
Складывая верхние и нижние цифровые эквиваленты с приведением по модулю 26, получим следующую последовательность чисел: 17 8 21 22 20 2 15 3 13, что соответствует криптограмме R1VWUCPDN.
Шифр Вижинера обладает достаточно высокой надежностью закрытия только при использовании весьма длинных ключей, что сопряжено с определенными трудностями.
Шифр Вижинера с ключом, состоящим из одной буквы, известен как шифр Цезаря, а с неограниченным неповторяющимся ключом как шифр Вернама.
Шифрование гаммированием.
В процессе шифрования цифровые эквиваленты знаков криптографически закрываемого сообщения складываются с псевдослучайной последовательностью чисел, именуемой гаммой, и приводятся по модулю k, где k — объем алфавита знаков. Таким образом, псевдослучайная последовательность выполняет здесь роль ключа.
Наиболее широко гаммирование используется для криптографического закрытия сообщений, уже выраженных в двоичном коде.
В этом случае особенно просто реализуется устройство, вырабатывающее ключ. Оно представляет собой регистр сдвига с обратными связями. Соответствующим выбором обратных связей можно добиться генерирования двоичных последовательностей, период повторения которых составляет 2n –1 символов, где n – число разрядов регистра. Такие последовательности называют псевдослучайными. С одной стороны, они удовлетворяют ряду основных тестов на случайность, что существенно затрудняет раскрытие такого ключа, а с другой – являются детерминированными, что позволяет обеспечить однозначность дешифрования сообщения.
Надежность криптографического закрытия методом гаммирования определяется главным образом длиной неповторяющейся части гаммы. Если она превышает длину закрываемого текста, то раскрыть криптограмму, опираясь только на результаты статистической обработки этого текста, теоретически невозможно.
Однако если удастся получить некоторое число двоичных символов исходного текста и соответствующих им двоичных символов криптограммы, то сообщение нетрудно раскрыть, так как преобразование, осуществляемое при гаммировании, является линейным. Для полного раскрытия достаточно всего 2n двоичных символов зашифрованного и соответствующего ему исходного текста.
Современный стандартный метод шифрования данных.
Этот метод криптографического закрытия данных – действующий стандарт шифрования данных в США, удовлетворяет всем указанным ранее требованиям и удобен для защиты информации как при передаче данных, так и при их хранении в запоминающих устройствах.
В процессе шифрования последовательность символов определенной длины (64 бит) преобразуется в шифрованный блок той же длины.
Перед началом шифрования в специализированный регистр устройства через входной регистр вводится ключ, содержащий 64 бит, из которых 56 используются для генерации субключей, а 8 являются проверочными. Ключ из устройства вывести нельзя. Предусмотрена возможность формирования нового ключа внутри устройства. При этом ключ, вводимый в устройство, шифруется ранее использовавшимся ключом и затем через выходной регистр вводится в специальный регистр в качестве нового ключа.
Далее 16 субключей по 48 бит каждый, сформированных в генераторе субключей, используются для шифрования блока из 64 символов, поступающих во входной регистр устройства. Шифрование осуществляется из 16 логически идентичных шагов, на каждом из которых используется один из субключей.
Процесс дешифрования выполняется по тому же алгоритму, что и процесс шифрования, только лишь субключи генерируются в обратном порядке.
Техническая реализация такого устройства основана на регистрах с обратными связями. При коммутации цепей обратной связи регистра-шифратора в соответствии с генерируемыми субключами нарушается линейность преобразования входной последовательности, что дает высокую надёжности криптографического закрытия.
П Р И Л О Ж Е Н И Я
ПРИЛОЖЕНИЕ 1.
Доказательство основной теоремы Шеннона о кодировании.
Будем кодировать сообщения такой длительности Т, чтобы была справедлива теорема об асимптотической вероятности длинных последовательностей букв. Тогда при заданной производительности источника сообщений Ī(Ζ) кодированию подлежат только Ν(z) типичных последовательностей, причем:
Ν(z) = (П.1-1)
Ориентируясь на равновероятное поступление в канал любого из m различных элементарных входных сигналов и отсутствие между ними статистической связи на входе канала, можно сформировать N(u) равновероятных последовательностей длительности Т, причем
N(u) = (П.1-1)
Если условие существования способа кодирования выполняется, т. е.
СД =, (П.1-2)
nо и N(u) ≫ N(z).
Следовательно, существует способов кодирования, при которых множеству сообщений N(z) случайным образом ставятся в соответствие различные подмножества разрешенных последовательностей элементарных сигналов из множества N(u).
При равновероятном выборе последовательностей элементарных сигналов из множества N(u) для любого подмножества разрешенных последовательностей вероятность p того, что конкретная последовательность будет отнесена к числу разрешенных,
. (П.1-3)
В результате действия помех при получении на выходе канала сигналов υ остается неопределенность относительно переданных последовательностей u. Она характеризуется условной энтропией HV (U) и эквивалентна неопределенности выбора из NV (U) = последовательностей. Конкретная последовательность может быть идентифицирована со сколь угодно малой вероятностью ошибки, если среди Nv(U) последовательностей она единственная разрешенная. Отсюда принципиальная необходимость введения избыточности в кодируемые последовательности для компенсации потерь информации в канале из-за действия помех.
Определим среднюю по всем возможным способам кодирования вероятность того, что ни одна из Nv(U) – 1 последовательностей не является разрешенной:
= (1 – p) Nv(U) – 1.
Так как (1 — р) < 1, то увеличение степени на единицу даёт неравенство
> (1 – p) Nv(U) .
Правую часть неравенства разложим в ряд
> 1 – p NV (U) + (p2/2) NV (U)[ NV (U) – 1] – … (П.1-4)
Покажем, что члены ряда убывают по абсолютному значению. Для этого выразим p через NV (U).
Используя соотношение (П.1-2), запишем
CД – Ī(Ζ) = η (П.1-5)
или
(П.1-6)
где η > 0. Выражение (П.1-4) теперь можно привести к виду
(П.1-7)
Согласно признаку Лейбница, остаток знакопеременного ряда с убывающими по абсолютному значению членами имеет тот же знак, что и первый отбрасываемый член, и меньше его по абсолютному значению. Следовательно, отбросив в разложении (П.1-4) все члены, содержащие ρ во второй и более высоких степенях, мы только усилим неравенство
> 1 – p NV (U) = 1 – 2 – . (П.1-8)
Тогда для средней вероятности ошибочного приема типичной последовательности ош запишем:
ош = 1 – < 2 – (П.1-9)
Вероятность ош при T → ∞ стремится к нулю. Принимая во внимание, что при неограниченном увеличении Т вероятность появления на входе канала нетипичной последовательности в соответствии с теоремой об асимптотической равновероятности также стремится к нулю, справедливо утверждение: при любом заданном η > 0 можно выбрать такое T, при котором средняя вероятность ошибочной передачи информации по каналу будет меньше произвольно малого положительного числа.
Теорему можно считать доказанной, поскольку среди всего множества способов кодирования должен существовать хотя бы один, при котором вероятность ошибочного приема меньше средней.
С доказательством второй части рассматриваемой теоремы (обратного утверждения) можно ознакомиться в работе: Шеннон К. Работы по теории информации и кибернетике. – М.: ИЛ, 1963.
ПРИЛОЖЕНИЕ 2.
Упражнения и задачи
1. Какое из соотношений несёт в себе больше информации или ?
2. Сколько бит в одном килобайте?
3. Найти энтропию дискретной с.в. , заданной распределением
4. Сколько информации об содержится в д.с.в. , где независимые д.с.в. и могут с равной вероятностью принимать значение либо 0, либо 1? Найти и . Каков характер зависимости между и ?
5. Значения д. с. в. и определяются подбрасыванием двух идеальных монет, а д.с.в. равна сумме количества «гербов», выпавших при подбрасывании этих монет. Сколько информации об содержится в ?
6. Д. с. в. , - зависимы и распределены также как и соответствующие д. с. в. из предыдущей задачи. Найти , если совместное распределение вероятностей и описывается законом
7. Д. с.в. и определяются подбрасыванием двух идеальных тетраэдров, грани которых помечены числами от 1 до 4. д.с.в. равна сумме чисел, выпавших при подбрасывании этих тетраэдров, т.е. . Вычислить , и .
8. Подсчитать сколько информации об содержится в д.с.в. , а также . д. с. в. и берутся из предыдущего упражнения.
9. Д. с. в. может принимать три значения -1, 0 и 1 с равными вероятностями. д. с. в. с равными вероятностями может принимать значения 0, 1 и 2. и - независимы. . Найти , , , ,.
10. Найти энтропии д. с. в. , , и количество информации, содержащейся в относительно . и - независимы и задаются распределениями
; .
11. В цифровых магнитофонах DAT частота дискретизации – 48 КГц. Какова максимальная частота звуковых волн, которые можно точно воспроизводить на таких магнитофонах?
12. Вычислить для блочного кода Хаффмана для д. с. в. упражнения 10. Длина блока - 2 бита.
13. Вычислить и для кодов Хаффмана и Шеннона-Фано для . Д. с. в. задаётся следующим распределением вероятностей:
.
14. Вычислить среднее количество бит на единицу сжатого сообщения о значении каждой из д. с. в., из заданных следующими распределениями вероятностей, при сжатии методами Шеннона-Фэно, Хаффмена и арифметическим. Арифметический код здесь и в следующих упражнениях составлять, располагая значения д. с. в. в заданном порядке слева-направо вдоль отрезка от 0 до 1.
; .
; .
15. Вычислить длины кодов Хаффмена и арифметического для сообщения AAB, полученного от д.с.в. со следующим распределением вероятно-
стей .
16. Декодировить арифметический код 011 для последовательности значений д. с. в. из предыдущего упражнения. Остановиться, после декодирования третьего символа.
17. Составить арифметический код для сообщения BAABC, полученного от д. с. в. со следующим распределением вероятностей . Каков будет арифметический код для этого же сообщения, если распределена по закону , , ?
18. Д. с. в. может принимать три различных значения. При построении блочного кода с длиной блока 4 для необходимо будет рассмотреть д. с. в. - выборку четырех значений . Сколько различных значений может иметь ? Если считать сложность построения кода пропорциональной количеству различных значений кодируемой д. с. в., то во сколько раз сложнее строить блочный код для по сравнению с неблочным?
19. Составить коды Хаффмана, блочный Хаффмана (для блоков длины 2 и 3) и арифметический для сообщения ABAAAB, вычислить их длины. Приблизительный закон распределения вероятностей д. с. в., сгенерировавшей сообщение, определить анализом сообщения.
20. Закодировать сообщение BBCBBC, используя адаптивный алгоритм Хаффмана с упорядоченным деревом.
21. Закодировать сообщения «AABCDAACCCCDBB», «КИБЕРНЕТИКИ» и «СИНЯЯ СИНЕВА СИНИ», используя адаптивный алгоритм Хаффмена с упорядоченным деревом.
22. Распаковать сообщение, полученное по адаптивному алгоритму Хаффмана с упорядоченным деревом, рассчитать длину кода сжатого и несжатого сообщения 'A'0'F'00'X'0111110101011011110100101 в битах.
23. Составить адаптивный арифметический код с маркером конца для сообщения BAABC.
24. По каналу связи без шума могут передаваться четыре сигнала длительностью 1 мс каждый. Вычислить емкость такого канала.
25. Три передатчика задаются случайными величинами со следующими законами распределениями вероятностей:
Ёмкость канала связи с шумом равна 4000 бод. Вычислить максимальную скорость передачи данных по этому каналу каждым из передатчиков, обеспечивающую сколь угодно высокую надёжность передачи.
26. Пусть двоичный симметричный канал используется для передачи строк из двух бит. Построить таблицу вероятностей приема.
27. По двоичному симметричному каналу передаются строки длины 14. Какова вероятность того, что ровно пять символов будут приняты неправильно? Какова вероятность того, что менее пяти символов будут приняты неправильно? Сколько имеется строк, отличающихся от данной не больше, чем в четырех позициях?
28. Имеется (8,9)-код с проверкой четности. Вычислить вероятность того, что в случае ошибки этот код её не обнаружит, если вероятность ошибки при передаче каждого бита равна 1%. Вычислить также вероятность ошибочной передачи без использования кода. Сделать аналогичные расчёты для случая, когда вероятность ошибки в десять раз меньше.
29. Вычислить минимальную и максимальную оценки количества дополнительных разрядов для кодовых слов длины , если требуется, чтобы минимальное расстояние между ними было . Рассмотреть случаи , и , .
30. Вычислить минимальную оценку по Плоткину количества дополнительных разрядов для кодовых слов матричного кода, если требуется, чтобы минимальное расстояние между ними было . Рассмотреть случаи из предыдущего упражнения.
31. Для кодирующих матриц
; .
а). Построить соответственно (2,5) - код и (3,4) - код.
б). Найти основные характеристики полученных кодов: минимальное расстояние между словами кода; вероятность необнаружения ошибки; максимальную кратность ошибок, до которой включительно они все исправляются или обнаруживаются. в). Построить таблицы декодирования. г).Уточнить характеристики полученных кодов, при использовании их для исправления ошибок, т.е. найти вероятность правильной передачи и описать ошибки, исправляемые этими кодами.
Во что будут декодированы слова: 10001, 01110, 10101, 1001, 0110, 1101?
32. Может ли (6,14) - код, минимальное расстояние между кодовыми словами которого 5, быть совершенным?
33. Построить кодовые слова квазисовершенного -кода, исправляющего однократные ошибки, для тех сообщений, которые соответствуют числам 55, 200 и декодировать слова 1000001000001, 1100010111100, полученные по каналу связи, использующему этот код.
34. По кодирующему многочлену построить полиномиальные коды для двоичных сообщений 0100, 10001101, 11110.
35. Принадлежат ли коду Голея кодовые слова 10000101011111010011111 и 11000111011110010011111?
36. Найти кодирующий многочлен БЧХ-кода с длиной кодовых слов 15 и минимальным расстоянием между кодовыми словами 7. Использовать примитивный многочлен с корнем . Проверить, будут ли и корнями соответственно многочленов и .
37. Построить CRC-4 код для сообщений 10000000 и 101111001, используя полином-генератор .
38. Зашифровать сообщение «КИБЕРНЕТИКА» ключом «ДИСК».
39. Между абонентами и установлен секретный канал связи без передачи ключей при заданных и их первых ключах 15 и 21. Описать процесс передачи сообщений 22 (от к ) и 17 (от к ).
40. Пользователь системы RSA выбрал и . Какие из чисел 12, 33, 125, 513 он может выбрать для открытого ключа? Вычислить для них закрытый ключ.
41. Пользователь системы RSA, выбравший , и , получил шифрованное сообщение . Дешифровать .
Использованная и рекомендуемая литература
Основная.
1. Фано Р. Передача информации. Статистическая теория связи. – М.: Мир, 1965. – 439 с.
2. Галлагер Р. Теория информации и надёжная связь. – М.: Сов. Радио, 1974. – 720 с.
3. Стратонович Р. Л. Теория информации. – М.: Сов. Радио, 1975. – 424 с .
4. Колесник В. Д., Полтырев Г. Ш. Курс теории информации. – М. : Наука, 1982.
5. Чиссар И. , Кёрнер Я. Теория информации. Теоремы кодирования для дискретных систем без памяти. – М. : Мир, 1985.
6. Темников Ф. Е. и др. Теоретические основы информационной техники. – М : Энергия, 1971.
7. Дмитриев В. И. Прикладная теория информации М.: МЭИ, 1987. – 332 с.
8. Бриллюэн Л. Наука и теория информации. – М : Гос. издат. физ.-мат. лит., 1960.
9. Шеннон К. Математическая теория связи – в кн. : Работы по теории информации и кибернетике. – М. : ИЛ, 1963.
10. Кульбак С. Теория информации и статистика. – М : Наука. Гл. ред. физ.-мат. лит., 1967.
11. Лидовский В. В. Теория информации. – М. : 2003. – 112 с.
12. Колмогоров А. Н. Три подхода к определению понятия «количество ин-формации» //Проблемы передачи информации. М.: 1965. Т.1. Вып.1, с. 25-38.
Дополнительная и справочная.
1. Орлов В. А., Филиппов Л. И. Теория информации в упражнениях и задачах. М. : Высшая школа ,1976.
2. Коган И. М. Прикладная теория информации. М. : Радио и связь, 1981.
3. Митюгов В. В. Физические основы теории информации. – М. : Сов. радио, 1976.
4. Голдман С. Теория информации. – М. : ИЛ, 1957.
5. Хартли Р. Передача информации. Теория информации и ее приложения / Под ред. А. А. Харкевича. М. : Физматгиз, 1959.
6. Файнстейн А. Основы теории информации. – М. : ИЛ, 1960.
7. Харкевич А. А. Борьба с помехами. М. : Физматгиз, 1965.
8. Тихонов В.И. Статистическая радиотехника.– М.: Сов. радио, 1966.– 624 с.
9. Яглом А.М., Яглом И.М. Вероятность и информация.– М. : Наука, 1973.
10. Питерсон У., Уэлдон Э. Коды, исправляющие ошибки. М. : Мир, 1976.
11. Кузьмин И. В., Кедрус В. А. Основы теории информации и кодирования. Киев : Высшая школа, 1977.
12. Советов Б. Я. Теория информации. Л. : Изд. ЛГУ, 1977.
13. Липкин И. А. Основы статистической радиотехники, теории информации и кодирования М. : Советское радио, 1978.
14. Игнатов В. А. Теория информации и передачи сигналов. М. : Советское радио, 1979.
15. Дэвис Д. и др. Вычислительные сети и сетевые протоколы. М. : Мир, 1982.
16. Хемминг Р. В. Теория кодирования и теория информации. М.: Радио и связь, 1983.
17. Зюко А. Г. Помехоустойчивость и эффективность систем передачи информации.– М. : Радио и связь, 1985. – 360 с.
18. Теория электрической связи /Под ред. Д.Д.Кловского. – М.: Радио и связь, 1999. – 327 с.
СОДЕРЖАНИЕ
Предисловие . . . . . . . . . . . . . . . . . 3
Введение . . . . . . . . . . . . . . 7
– фазы отображения информации . . . . . . . . 9
– виды информации и её структура . . . . . . . . 12
Лекция 1. Измерение информации . . . . . . . 17
1) Информационные меры: . . . . . . . . . .17
2) Структурные меры информации: . . . . . . . . 18
- геометрическая мера; . . . . . . . . . . 18
- комбинаторная мера; . . . . . . . . . . .19
- аддитивная мера Хартли. . . . . . . . . . . 21
2) Статистические меры информации: . . . . . . . . 22
- вероятность и информация; основные понятия и определения; . . 22
- взаимная информация; . . . . . . . . . . . 26
- количество собственной информации; . . . . . . . 27
- информация как случайная величина; . . . . . . . 29
- энтропия, её статистический и физический смысл и свойства; . . 32
- количество информации и избыточность. . . . . . . 39
3) Понятие о семантических и других мерах полезности информации(*): . 40
- семантические меры информации; содержательность, целесообраз-
ность и существенность информации; . . . . . . . 40
- динамическая энтропия; . . . . . . . . . . 43
- энтропия, шум и тезаурус; . . . . . . . . . 44
- другие подходы к определению информации и её мер; . . . . 47
- ценность информации. . . . . . . . . . . 49
Лекция 2. Информация и энтропия для непрерывных пространств. . 54
1) Обобщение количества взаимной информации и энтропии на непре-
рывные ансамбли: . . . . . . . . . . . . . . . . 54
- определение взаимной информации непрерывной случайной величины; . 56
- средняя взаимная информация и энтропия для непрерывных
пространств. . . . . . . . . . . . . . . . . 63
2) Дискретизация информации(*): . . . . . . . . . . . 66
- квантование по уровню; . . . . . . . . . . . . . 66
- дискретизация по времени и восстановление непрерывных функций. . 70
Лекция 3. Кодирование информации. . . . . . . . . 75
1) Основные понятия и определения: . . . . . . . . . 75
- цели кодирования; модель системы связи; . . . . . . . 75
- кодирование как процесс выражения информации в цифровом виде. . 78
2) Эффективное кодирование: . . . . . . . . . 80
- кодовое дерево для множества кодовых слов; нижняя граница для
средней длины кодового слова, неравенство Крафта; . . . . 80
- основная теорема кодирования; . . . . . . . . . 89
- методы кодирования по Шеннону и Фано; оптимальное кодирование
по Хаффману; . . . . . . . . . . . . . . 92
- арифметическое кодирование; . . . . . . . . . . 95
- адаптивные алгоритмы сжатия информации:
а) адаптивное кодирование Хаффмана; . . . . . . . . 98
б) адаптивное арифметическое кодирование. . . . . . . . 102
3) Помехоустойчивое кодирование(*): . . . . . . . . . 105
- блоковые коды: общие принципы построения и свойства; . . . . 106
- матричное кодирование; . . . . . . . . . . . 114
- групповые коды (в частности систематические): общие принципы
построения и свойства; . . . . . . . . . . . 115
- совершенные и квазисовершенные коды; . . . . . . . 118
- систематические коды; . . . . . . . . . . . 123
- полиномиальные коды; . . . . . . . . . . . 124
- циклические коды; . . . . . . . . . . . . . 126
- математическое введение к циклическим кодам. . . . . . 128
Лекция 4. Дискретные случайные источники. . . . . . 131 1) Источники сообщений и каналы связи: основные понятия и
определения. . . . . . . . . . . . . . . 131
2) Информационные характеристики и модели источников дискретных
сообщений: . . . . . . . . . . . . . . 133
- стационарные и эргодические источники; . . . . . . 133
- свойства эргодических последовательностей знаков; . . . . 136
- избыточность; . . . . . . . . . . . . . 139
- производительность источника дискретных сообщений. . . . 142
3) Информационные характеристики источников непрерывных
сообщений: . . . . . . . . . . . . . . . 143
- эпсилон-энтропия случайной величины; . . . . . . . . 143
- эпсилон-производительность источника непрерывныхсообщений. . 146
Лекция 5. Каналы связи. Кодирование и декодирование в каналах
связи. . . . . . . . . . . . . . . . . 148
1) Информационный канал: . . . . . . . . . . . . 148
- основные понятия и определения; . . . . . . . . . . 148
- модемы и кодеки в информационном канале. . . . . . . . 151
2) Информационные характеристики и модели дискретных каналов: . 154
- основные понятия и определения; . . . . . . . . . . 154
- скорость передачи информации в дискретных каналах; . . . . 160
- пропускная способность дискретного канала без помех; . . . 161
- пропускная способность дискретного канала с помехами. . . . 162
3) Информационные характеристики непрерывные каналы связи: . . 167
- модели непрерывных каналов связи; . . . . . . . . . 167
- скорость передачи информации по непрерывному каналу; . . . 168
- пропускная способность непрерывного канала связи. . . . . . 168
4) Согласование физических характеристик сигнала и канала. . . . 171
5) Согласование статистических свойств источника сообщений и
канала связи. . . . . . . . . . . . . . . . . 173
6) Кодирование в канале как средство криптографического закрытия
закрытия информации: . . . . . . . . . . . . . 179
- шифрование простой подстановкой . . . . . . . . . 181
- шифр Вижинера . . . . . . . . . . . . . . . . 182
- шифрование гаммированием . . . . . . . . . . . 182
- современный стандартный метод шифрования данных . . . .183
ПРИЛОЖЕНИЯ: . . . . . . . . . . . . . . 185
1. Доказательство основной теоремы Шеннона о кодировании. . .185
2. Задачи и упражнения. . . . . . . . . . . . 188
Использованная и рекомендуемая литература . . . . . . 194
СОДЕРЖАНИЕ . . . . . . . . . . . . . .196
Позиция № 317
в плане издания
учебной литературы
МГУ на 2010 г.
Александр Васильевич Шевцов
Учебное пособие
ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ
(КУРС ЛЕКЦИЙ)
Для студентов специальностей:
09010665 – Информационная безопасность телекоммуникационных систем;
22020365 – Автоматизированные информационно-управляющие системы;
23010265 – Автономные системы обработки и управления;
21040265 – Системы связи с подвижными объектами.
Печатается в авторской редакции
12,5 уч.-изд. л. Формат 60 ´ 84 1/16
Тираж 100 экз. Заказ №
Отпечатано в типографии РПК МГУ им. адм. Г. И Невельского
690059 Владивосток, ул. Верхнепортовая, 50а