Количественная теория информации — это раздел прикладной математики и информатики, изучающий количественные закономерности оценки, получения, хранения и трансляции цифровой информации.
Введение
В теории информации исследуются количественные закономерности процессов трансляции, сохранения и переработки информации. Известно несколько подходов к исследованию информации, которые положены в основу соответствующих теорий. Основными из них являются следующие подходы:
- Комбинаторный подход.
- Вероятностный подход.
- Алгоритмический подход.
Самое большое развитие и практическое использование нашла вероятностная теория информации, разработанная Клодом Шенноном. Данная теория является классической и самой популярной.
Ключевым термином теории является информация. Это понятие не может считаться только техническим и вообще узко дисциплинарным. Информация является фундаментальной философской категорией, о которой с давних времен идет дискуссия между последователями различных научных направлений. Концепции и истолкования, которые возникают при научных спорах, породили разнообразные определения информации. Информация является свойством материальных объектов и явлений (процессов) порождать многообразность состояний, которые при посредстве взаимодействий способны передаваться другим объектам и запечатлеваться в их структуре.
Другое определение, информацией являются сведения (сообщения, данные), вне зависимости от формата их представления. И еще, информацией являются сведения об объектах и явлениях окружающей среды, их характеристиках, свойствах и состоянии, уменьшающих имеющийся уровень неопределенности, то есть, неполноты знаний о них.
Наиболее полно отображает суть информации и поэтому кажется достаточно абстрактным следующее определение информации. Информацией является свойство материи, которое состоит в том, что в результате взаимодействия объектов среди их состояний должно устанавливаться некоторое соответствие.
Информация не способна существовать сама по себе, она обязана представляться в каком-либо объективном формате, причем одну и ту же информацию можно представить в различных форматах. Для того чтобы подчеркнуть разнообразие форматов представления информации, служит термин «сообщение». Сообщением является набор символов конечного алфавита, являющийся формой выражения информации.
Количественная теория информации
В качестве главного параметра сообщения теория информации воспринимает величину, которая называется количеством информации. Данное понятие не касается смыслового значения и важности транслируемого сообщения, а сопряжено с его уровнем неопределенности. Предположим, что алфавит источника сообщений имеет в своем составе m знаков, каждый из которых может использоваться как элемент сообщения. Число N возможных сообщений, имеющих длину n, равняется количеству перестановок с неограниченными повторами:
N = mn
Когда для получателя все N сообщений от источника выступают как равновероятные, то получить конкретное сообщение для него окажется равносильным случайной выборке одного из N сообщений с вероятностью 1/N. Понятно, что чем больше N, тем больший уровень неопределенности будет характеризовать данный выбор и тем более информативным может считаться это сообщение.
Это означает, что число N может использоваться как мера информации. Но, с позиции теории информации, следовало бы наделить данную меру свойствами аддитивности, то есть, следует определить ее так, чтобы она являлась пропорциональной длине сообщения (к примеру, при отправке и оплате сообщения при помощи телеграммы, ее содержание не имеет значения, а общее количество знаков имеет).
Мерой неопределенности выбора состояния источника, имеющего равновероятные состояния, является логарифм количества состояний:
$I = log N = log \ m^n = n \ log \ m$.
Данная логарифмическая функция может характеризовать количество информации. Количество информации, которое приходится на один компонент сообщения, такой как, знак или буква, именуется энтропией:
Рисунок 1. Формула. Автор24 — интернет-биржа студенческих работ
По существу все равно, какое именно основание логарифма используется, для того чтобы определить количество информации и энтропии, так как в силу соотношения;
$log_a \ m =log_a \ b log_b \ m$
переход от одного основания логарифма к другому может быть сведен только к изменению единицы измерения. Поскольку современные информационные системы основываются на компонентах, которые обладают двумя устойчивыми состояниями, то, как правило, используется основание логарифма равное двум, то есть, энтропия может быть представлена в следующем виде:
$H_0 = log_2 \ m$
В этом случае единица количества информации на один компонент может называться двоичной единицей или битом. Причем единица неопределенности (двоичная единица или бит) является неопределенностью выбора из двух равновероятных событий. Здесь следует подчеркнуть, что bit является сокращением от английского binary digit, то есть, двоичная единица.
Поскольку из $log_2 \ m = 1$ вытекает, что $m = 2$, то очевидно, что один бит является количеством информации, которым может характеризоваться один двоичный элемент при равновероятных его состояниях нуль или единица. Двоичное сообщение, имеющее длину n, имеет в своем составе n бит информации. Единица количества информации, которая равна восьми битам, именуется байтом.
Если в качестве основания логарифма назначить десять, то энтропия может быть выражена в десятичных единицах на компонент сообщения, называемых дитами, причем один дит равен:
$дит = log_{10}\ 2 бит = 3,32 \ бит$.
Рассмотрим конкретный пример. Требуется определить количество информации, содержащееся в телевизионном сигнале, который соответствует одному кадру развертки. Обычно в кадре 625 строк, а сигнал, который соответствует одной строке, является последовательностью из 600 случайных по амплитуде импульсов, при этом амплитуда импульса может принимать любое из восьми значений с шагом в один вольт.
Используя приведенные выше формулы, получаем, что количество информации в одной строке:
$I = n \ log \ m = 600 \ log \ 8$,
а количество информации в кадре:
$I = 625 I = 625 600 log \ 8 = 1,125 \ 10^6 \ бит$.