Справочник от Автор24
Поделись лекцией за скидку на Автор24

Технологии обработки информации. Задачи анализа. Сжатие

  • 👀 377 просмотров
  • 📌 291 загрузка
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Технологии обработки информации. Задачи анализа. Сжатие» pdf
Технологии обработки информации. Лекция 4. Задачи анализа. Сжатие Содержание Общие понятия  Избыточность данных. Теорема Шеннона  Классификации методов сжатия  Перечень алгоритмов сжатия  Описание отдельных методов и алгоритмов  RLE  LZW  Хаффмана  PPM  BWT  2 Сжатие данных (англ. data compression) — алгоритмическое преобразование данных, производимое с целью уменьшения занимаемого ими объёма. Применяется для более рационального использования устройств хранения и передачи данных. Синонимы — упаковка данных, компрессия, сжимающее кодирование, кодирование источника. Обратная процедура называется восстановлением данных (распаковкой, декомпрессией).    Википедия 3 Избыточность данных Видео Графика Текст 4 Избыточности и кодирование Разные способы кодирования дают разную избыточность. Пример: кодирование текста средствами русского языка избыточно на 20-25% по отношению к английскому.   Всегда ли избыточность – это плохо? 5 Идея сжатия Представлять часто используемые элементы длинными кодами; редко используемые – короткими кодами. Тогда для хранения блока данных требуется меньший объем, чем для кодирования с одинаковыми длинами кодов Пример: азбука Морзе     6 Теорема Шеннона о кодировании источника Элемент si, вероятность появления которого равняется p(si), выгоднее всего представлять - log2p(si) битами Если распределение вероятностей неизменно и вероятности независимы, то средняя длина кодов: - энтропия Шеннона   𝐻=− 𝑝 𝑠𝑖 × log 2 𝑝 𝑠𝑖 𝑖 в подавляющем большинстве случаев истинная структура источника нам не известна, поэтому необходимо строить модель источника, которая позволила бы оценить вероятность p(si). Вывод: чтобы эффективно сжимать нужно знать природу данных.   7 Классификации методов сжатия (1) Необратимое (с регулируемыми потерями) — методология, при которой для обеспечения максимальной степени сжатия исходного массива часть содержащихся в нем данных отбрасывается. Обратимое (без потерь) — методология сжатия, при которой ранее закодированная порция данных восстанавливается после их распаковки полностью без внесения изменений.   8 Классификации методов сжатия (2) Симметричное (symmetric compression) — время, затрачиваемое на сжатие и распаковку данных, соизмеримо. Асимметричное (asymmetric compression) — методология, в соответствии с которой при выполнении работ «в одном направлении» времени затрачивается больше, чем при выполнении работ в другом направлении (сжатие изображений vs. резервное копирование).   9 Классификации методов сжатия (3)    Адаптивное кодирование (adaptive encoding) — методология кодирования при сжатии данных, которая заранее не настраивается на определенный вид данных (двухпроходные алгоритмы). Неадаптивное кодирование (nonadaptive encoding) — методология кодирования, ориентированная на сжатие определенного типа или типов данных (словарные алгоритмы). Полуадаптивное кодирование (half-adaptive coding) — методология кодирования при сжатии данных, которая использует элементы адаптивного и неадаптивного кодирования. 10 Перечень алгоритмов сжатия. Без потерь (1)           Преобразование Барроуза-Уилера (BWT). Преобразование Шиндлера (ST). Алгоритм DEFLATE. Дельта-кодирование. Инкрементное кодирование. Семейство алгоритмов LZW. Алгоритм сжатия PPM. Кодирование длин серий (RLE). Алгоритм SEQUITUR. EZW-кодирование. 11 Википедия Перечень алгоритмов сжатия. Без потерь (2)  Энтропийное кодирование:  Алгоритм Шеннона-Фано  Алгоритм Хаффмана    Усечённое двоичное кодирование Арифметическое кодирование    Адаптивное кодирование Хаффмана Адаптивное арифметическое кодирование Кодирование расстояний Энтропийное кодирование с известными характеристиками:     12  Унарное кодирование дельта|гамма|омега-кодирование Элиаса Кодирование Фибоначчи Кодирование Голомба Кодирование Райса Википедия Перечень алгоритмов сжатия. С потерями         Дискретно-косинусное преобразование. Линейное предсказывающее кодирование. А-закон. Мю-закон. Фрактальное сжатие. Трансформирующее кодирование. Векторное квантование. Вейвлетное сжатие. 13 Википедия Группы методов сжатия без потерь алгоритм RLE (Run Length Encoding);  алгоритмы группы KWE (KeyWord Encoding);  вероятностные алгоритмы.  14 Кодирование длин серий (Run-length encoding, RLE)   Простой алгоритм сжатия данных, который оперирует сериями данных, то есть последовательностями, в которых один и тот же символ встречается несколько раз подряд. При кодировании строка одинаковых символов, составляющих серию, заменяется строкой, которая содержит сам повторяющийся символ и количество его повторов:   15 WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWW WWWWWWWWWWWWWWWWWWWWBWWWWWWWWW WWWWW – 67 символов. 12W1B12W3B24W1B14W – 18 символов. Ограничения алгоритма RLE 1. Если строка состоит из большого количества неповторяющихся символов, её объем может вырасти.  Решение: использовать отрицательные числа для записи количества неодинаковых символов: ABCABCABCABCDDEFFFFFFFF -12ABCABCABCABC2D1E8F 2. Пределы длин численных данных.  Решение: разделение длинных последовательностей на группы. 16 Алгоритмы группы KWE    Принцип кодирования лексических единиц (повторяющихся последовательностей символов) группами байт фиксированной длины. Словарные алгоритмы — разбиение данных на слова и замена их на индексы в словаре. Наиболее известные – алгоритмы семейства LZ* (LZ77/78, LZW, LZO, DEFLATE, LZMA, LZX, ROLZ). 17 Алгоритм LZW (1)     Авторы: Абрахам Лемпель (англ. Abraham Lempel), Якоб Зив (англ. Jacob Ziv) и Терри Велч (англ. Terry Welch); был опубликован Велчем в 1984 году, в качестве улучшенной реализации алгоритма LZ78, опубликованного Лемпелем и Зивом в 1978 году; патент принадлежал Зиву. Основные идеи:   18 Принцип скользящего окна. Механизм кодирования совпадений. Алгоритм LZW (2) 1. 2. 3. 4. 5. 6. 19 Инициализация словаря всеми возможными односимвольными фразами. Инициализация входной фразы W первым символом сообщения. Найти в словаре строку W наибольшей длины, которая совпадает с последними принятыми символами. Считать очередной символ K из кодируемого сообщения. Если КОНЕЦ_СООБЩЕНИЯ, то выдать код для W, иначе. Если фраза WK уже есть в словаре, присвоить входной фразе W значение WK и перейти к Шагу 3, иначе выдать код W, добавить WK в словарь, присвоить входной фразе W значение K и перейти к Шагу 3. Конец. Вероятностные методы    Алгоритм Хаффмана. Алгоритм PPM. Алгоритм BWT. 20 Алгоритм Хаффмана (1)      Адаптивный жадный алгоритм оптимального префиксного кодирования алфавита с минимальной избыточностью. Был разработан в 1952 году аспирантом Массачусетского технологического института Дэвидом Хаффманом при написании им курсовой работы. Идея: зная вероятности символов в сообщении, можно описать процедуру построения кодов переменной длины, состоящих из целого количества битов. Символам с большей вероятностью ставятся в соответствие более короткие коды. Коды Хаффмана обладают свойством префиксности (т.е. ни одно кодовое слово не является префиксом другого), что позволяет однозначно их декодировать. 21 Алгоритм Хаффмана (2)  Состоит из двух основных этапов: 1. 2.  Недостаток:   Построение оптимального кодового дерева. Построение отображения код-символ на основе построенного дерева. для восстановления содержимого сжатого сообщения декодер должен знать таблицу частот, которой пользовался кодер. Модификация: адаптивное сжатие Хаффмана. 22 Алгоритм PPM  PPM (prediction by partial matching) - это метод контекстно-ограниченного моделирования, позволяющий оценить вероятность символа в зависимости от предыдущих символов. 23 Алгоритм BWT     Преобразование Барроуза-Уилера (Burrows-Wheeler transform, BWT, также называется блочно-сортирующим сжатием). сравнительно новая и революционная техника для сжатия информации (в особенности-текстов), основанная на преобразовании, открытом в 1983 г. и описанная в 1994 г. Меняет порядок символов во входной строке таким образом, что повторяющиеся подстроки образуют на выходе идущие подряд последовательности одинаковых символов. Используется последовательность BWT → MTF/RLE → Хаффман. 24
«Технологии обработки информации. Задачи анализа. Сжатие» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Помощь с рефератом от нейросети
Написать ИИ
Получи помощь с рефератом от ИИ-шки
ИИ ответит за 2 минуты

Тебе могут подойти лекции

Смотреть все 462 лекции
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot