Кодирование данных
Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция №5. Кодирование данных
Содержание
Лекция №5. Кодирование данных 1
Содержание 1
Компьютерные системы счисления 2
Двоичная система счисления 2
Шестнадцатеричная система счисления 2
Кодирование текстовых данных 3
Универсальная система кодирования текстовых данных 4
Кодирование графических данных 5
Растровое представление изображения 5
Векторное представление изображения 6
Кодирование звуковой и видео информации 6
Вопросы для самоконтроля 6
Данные всех типов представляются в компьютере с помощью универсального двоичного кодирования. Способ записи и обработки двоичных кодов определяется правилами двоичной арифметики и двоичной логики.
Позиционные системы счисления
Система счисления — это способ записи чисел с помощью набора специальных знаков — цифр. Существуют позиционные, непозиционные и смешанные системы счисления.
В непозиционных системах значение числа определяется его изображением. Так, в римской системе счисления в значение числа XXXII (тридцать два) вычисляется как Х+Х+Х+I+I, а значение числа XLIX (сорок девять) вычисляется как L-X+X-I.
В позиционных системах счисления значения цифр зависят от позиций, которые они занимают в изображении числа. Например, в числе 505,5 первая цифра означает 5 сотен, вторая — 0 десятков, третья — 5 единиц, а четвертая — 5 десятых долей единицы. Сама же запись числа 505,5 представляет собой сокращенную запись выражения
5*102 + 0*101+ 5*100 + 5*10-1 = 500 + 5 + 0,5 = 505,5
Любая позиционная система счисления характеризуется своим основанием.
Основание позиционной системы счисления (p) — это количество используемых в ней цифр. В десятичной системе счисления используется десять цифр от 0 до 9, в двоичной - две цифры 0 и 1.
Запись числа в любой позиционной системе счисления в общем виде выглядит одинаково, и в системе с основанием p представляется выражением
an-1pn-1+ an-2pn-2+… a1p1+ a0p0+ a-1p-1+… a-mp-m+
где ai - цифры системы счисления; п,т- число целых и дробных разрядов в изображении числа, соответственно.
Пример.
Запишем первые десять целых чисел в двоичной
системе счисления:
Десятичное представление
двоичное представление
010
02
110
12
210
102
310
112
410
1002
510
1012
610
1102
710
1112
810
10002
910
10012
Компьютерные системы счисления
В информатике для кодирования данных используются системы счисления с основанием, являющимся целой степенью числа 2, а именно:
• двоичная (основание p = 2) с цифрами {0, 1}, например:
1010 01112 = 16710;
• восьмеричная (основание p = 8)с цифрами {0, 7}, например:
2478 = 16710;
• шестнадцатеричная (основание p = 16), в которой для первых десяти цифр используются цифры {0, 1, ..., 9}, а для следующих шести цифр используются буквы латинского алфавита {А, В, С, D, E, F}. Например: А716 = 16710.
Двоичная система счисления применяется для внутреннего представления данных и выполнения действий в компьютере, восьмеричная и шестнадцатеричная системы счисления дают более компактный способ представления двоичных кодов и удобство при работе с ними, когда в этом возникает необходимость. Из двух последних наиболее удобна и используется на практике шестнадцатеричная система.
Двоичная система счисления
В компьютерной технике используется двоичная система счисления, потому что она имеет ряд преимуществ перед другими системами:
• для ее реализации нужны простые технические устройства с двумя устойчивыми состояниями (есть ток - нет тока, намагничен - не намагничен, истина — ложь и т.п.);
• представление информации посредством только двух состояний надежно и помехоустойчиво;
• возможно применение математического аппарата булевой алгебры (алгебры логики) для выполнения логических преобразований информации;
• двоичная арифметика намного проще десятичной.
Недостаток двоичной системы — быстрый рост числа разрядов, необходимых для записи чисел.
Шестнадцатеричная система счисления
Шестнадцатеричная система счисления используется для более удобной и компактной записи двоичных кодов.
Чтобы перевести число из двоичной системы в шестнадцатеричную, его нужно разбить влево и вправо от запятой, разделяющей целую и дробную часть числа, на группы по четыре цифры и каждую такую группу заменить соответствующей шестнадцатеричной цифрой. Например:
1001 01012 = 9516;
1000 11102 = 8Е16.
Перевод шестнадцатеричных чисел в двоичную систему тоже очень прост: достаточно каждую цифру заменить эквивалентной ей группой из четырех двоичных цифр. Например:
6D16 = 011011012;
Е316 = 111000112.
При переводе целого десятичного числа в систему с основанием p его необходимо последовательно делить на p до тех пор, пока не останется остаток, меньший или
равный p-1. Число в системе с основанием p записывается как последовательность остатков от деления на p, записанных в обратном порядке, начиная с последнего.
Цифра шестнадцатеричной системы счисления
Ее двоичный код
Десятичное число
0000
1
0001
1
2
0010
2
3
0011
3
4
0100
4
5
0101
5
6
0110
6
7
0111
7
8
1000
8
9
1001
9
А
1010
10
В
1011
11
С
1100
12
D
1101
13
Е
1110
14
F
1111
15
При переводе числа из двоичной (шестнадцатеричной) системы в десятичную надо это число представить в виде суммы степеней основания исходной системы счисления для разрядов, содержащих единицы.
Кодирование текстовых данных
Буквы любого алфавита нетрудно перенумеровать с использованием целых чисел. Это значит, что текстовая информация может быть представлена в виде числового кода, в том числе и двоичного. Восьми двоичных разрядов достаточно, чтобы закодировать 256 различных символов. Этого хватает, чтобы выразить различными восьмибитовыми кодами все строчные и прописные буквы английского и русского языка, знаки препинания, общепринятые специальные символы.
Существует несколько систем кодирования текстовых данных. Международная система ASCII-кодов содержит 128 символов (коды с 0 по 127), включающих цифры, буквы и знаки, использующиеся в английском языке, и некоторые специальные символы, и оставляет вторую половину кодов (с 128 по 255) для национальных кодировок.
Один из вариантов таблицы ASCII кодов
Исторически сложилось, что в России действует несколько систем кодирования русского алфавита для второй половины ASCII-кодов. В операционной системе MS DOS использовалась так называемая ГОСТ-альтернативная кодировка (DOS OEM, кодовая страница 437, 866). В операционной системе MS Windows ей соответствует кодировка Windows-1251 (ANSI, ISO 8859-1, Latin-1). Иногда встречаются документы, выполненные в старых кодировках ISO, КОИ-7 и других.
Начиная с операционной системы MS Windows 98, используется универсальная двухбайтная кодировка Unicode, насчитывающая 65536 различных кодов. В ней закодированы алфавиты всех существующих и исчезнувших языков земного шара, таблицы графических, математических, музыкальных и других специальных символов. Первые 128 кодов этой системы совпадают кодами системы ASCII.
В связи с изобилием кодировок, использующихся в России и СНГ, часто возникает необходимость в перекодировке документов, написанных на русском языке. Особенно остро эта проблема стоит при получении документов из Интернета. При прохождении через Web-узлы сообщения могут неоднократно автоматически перекодироваться. В результате полученный текст иногда бывает трудно расшифровать. Так как латинский алфавит во всех кодировках изображается одинаково, можно прибегнуть к так называемой транслитерации, когда russkie slova pishut latinskimi bukvami.
Универсальная система кодирования текстовых данных
Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В то же время очевидно, что если, например, кодировать символы не восьмиразрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной — UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов — этого поля достаточно для размещения в одной таблице символов большинства языков планеты.
Несмотря на тривиальную очевидность такого подхода, простой механический переход на данную систему долгое время сдерживался из-за недостаточных ресурсов средств вычислительной техники (в системе кодирования UNICODE все текстовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов технические средства достигли необходимого уровня обеспеченности ресурсами, и сегодня мы наблюдаем постепенный перевод документов и программных средств на универсальную систему кодирования. Для индивидуальных пользователей это еще больше добавило забот по согласованию документов, выполненных в разных системах кодирования, с программными средствами, но это надо понимать как трудности переходного периода.
Кодирование графических данных
В зависимости от способа формирования различают растровое и векторное представление графических изображений. В растровом представлении изображения его базовым элементом является точка —pixel (сокр. от англ. picture element — элемент картины, изображения), которая задается координатами. В векторном представлении базовым элементом является линия, которая описывается уравнением.
Растровое представление изображения
Черно-белое графическое изображение может быть представлено в виде растра — набора точек, образующих узор. Координаты положения каждой точки, её цвет и яркость можно выразить с помощью целых чисел. Это значит, что растровое графическое изображения можно закодировать.
Если для кода яркости каждой точки использовать один байт, то любое черно-белое изображение можно представить в виде точек с 256 градациями серого тона.
Цветное изображение на экране дисплея представляют состоящим из трех основных цветов: красного (R — Red), зеленого (G — Green) и синего (B — Blue). Считается, что любой цвет, различаемый человеческим глазом, можно получить путем смешения этих трех основных цветов. Такая система кодирования цвета получила название RGB. Если по аналогии с черно-белым изображением каждую составляющую цвета представлять 256 градациями яркости соответствующего тона, то для кодирования цвета одной точки потребуется 3 байта. Такая система кодирования с использованием 24 двоичных разрядов (битов) на точку позволяет различать около 16,8 млн. цветов, что приблизительно соответствует чувствительности человеческого глаза, и называется полноцветной — TrueColor. Число разрядов, отводимых для кодирования цвета одного пиксела, характеризует так называемую глубину цветности.
За счет уменьшения числа разрядов на пиксел получают меньшую глубину цветности, огрубляя качество цветопередачи изображения, но выигрывая в необходимом для хранения данных объеме памяти или сокращая трафик при передаче изображения через Интернет. Для повышения эффективности Web-сайтов используют графические изображения малых размеров с 256 цветами, т.е. одного байта на пиксел.
Для растровых графических изображений важным параметром является их разрешение — количество точек на единицу длины изображения:
• разрешение оригинала, измеряемое в точках на дюйм (dpi — dots per inch) и зависящее от требований к его качеству, возможному объему памяти его размещения и объема и формата файла для его хранения; выбираемое разрешение оригинала определяет число точек, из которого оно составляется и их размер;
• разрешение экранного изображения, измеряемого в пикселах по горизонтали и вертикали экрана дисплея и выбираемого из ряда стандартных значений (800x600, 1024x768, 1152x864 и т.д.); от устанавливаемого экранного разрешения зависит размер пикселов, из которых строится изображение на экране;
• разрешение печатного изображения, измеряемого в линиях на дюйм (lpi - lines per inch) определяет его качество при воспроизведении на бумаге.
Качество изображения зависит от размеров оригинала и выбираемых разрешений при его обработке, а также - разрешающей способности отображающих устройств — сканера, фотоаппарата, дисплея, принтера.
Хранение полноцветного изображения для выдачи его на экран дисплея в разрешении 800x600 требует 1,44 Мб памяти.
Векторное представление изображения
Векторное графическое изображение представляется в виде набора линий. Каждая линия описывается как единый математический объект с помощью уравнения, которое представляется с помощью нескольких числовых параметров. Поэтому объем данных, необходимых для хранения векторных изображений, существенно меньше, чем растровых.
Как объект, линия, кроме формы, имеет цвет, толщину, начертание (сплошная, пунктирная и т.д.). Незамкнутая линия ограничивается узлами, параметры которых влияют на форму конца линии и характер сопряжения с другими объектами. Замкнутая линия, ограничивающая некоторое пространство и являющаяся, таким образом, контуром некоторой фигуры, имеет заполнение цветом, текстурой и т.д.
Все фигуры векторной графики, составляющиеся из линий, строятся на основе кривых третьего порядка. Эти линии имеют перегиб и хорошо отображают природные объекты.
Прямые линии и кривые второго порядка являются частными случаями кривых третьего порядка.
Кодирование звуковой и видео информации
Идея кодирования звуковых сигналов основана на теоретической возможности разложить любой звук на синусоидальные гармоники разных частот, каждая из которых может быть описана числовыми параметрами и закодирована. Качество воспроизведения зависит от точности кодирования звучания, которое определяется количеством гармоник, отобранных для составления кода.
К настоящему времени еще не выработан единый стандарт кодирования звуковой информации. В результате существует несколько систем кодирования звукозаписи. Наиболее популярными звуковыми форматами являются WAV и МРЗ. Кодирование в формате WAV происходит практически без потери качества, в то время как формат МРЗ - это результат сжатия со значительным уменьшением размера звуковых файлов за счет некоторой потери качества.
Для кодирования сигналов электронных музыкальных инструментов и синтезаторов используется формат MIDI.
Так же единый стандарт не выработан до сих пор и в области кодирования видео, особенностью кодирования которого, как непрерывно изменяющегося изображения, является не полная и быстрая смена кадров на экране, как при просмотре кинопленки, а изменение в тех частях кадра, в которых происходит движение. Наиболее популярными видео форматами являются МР4, MPEG, DVD.
Вопросы для самоконтроля
1. Что такое система счисления?
2. Чем удобна позиционная система счисления?
3. Почему в компьютерной технике используется двоичная система счисления?
4. С какой целью в информатике введена шестнадцатеричная система счисления?
5. Какие форматы звуковых и видео файлов вам известны?
6. Почему для кодировки текстовых данных выбраны коды, состоящие из восьми двоичных разрядов?
7. Какая система кодировки русских текстов используется в операционной системе MS Windows 98?
8. Dlya chego ispolzuyut takuyu kodirovku v Internet?
9. Назовите два способа компьютерного формирования графических изображений.
10. Что является базовым элементом при растровом представлении изображения?
11. Что такое растр?
12. Перечислите три основных цвета, из которых составляется цветное изображение на экране дисплея.
13. Что имеется в виду под термином «глубина цветности»?
14. В чем измеряется разрешение растрового графического изображения на дисплее?
15. Что является базовым элементом при векторном представлении изображения?
16. Почему объекты векторной графики составляются из кривых третьего порядка?
17. На чем основана идея кодирования звуковых сигналов?