Справочник от Автор24
Найди эксперта для помощи в учебе
Найти эксперта
+2

Технология распознавания текста: базовые принципы, программы и сервисы

Определение 1

Технология распознавания текста — это технология механического или электронного перевода разных текстов в последовательность кодов, используемых для представления в текстовом редакторе.

Введение

Если пользователю необходимо выполнить оцифровку журнальной статьи или распечатанного договора, то он может или провести несколько часов, перепечатывая документ, или же перевести все необходимые материалы в редактируемый формат за короткий интервал времени, задействовав сканер (или цифровую камеру) и программу для оптического распознавания символов, то есть, Optical Character Recognition (OCR).

Оптическим распознаванием символов является технология, позволяющая преобразовать разные виды документов, а именно, отсканированные документы, PDF-файлы или фото с цифровых камер, в редактируемые форматы с возможностью поиска. Передовые системы оптического распознавания символов подразделяются на следующие категории:

  1. Классические OCR-системы, призванные решать типовую задачу распознавания печатных символов, которые нанесены на бумагу с помощью принтера, плоттера или пишущей машинки. Причем предполагается, что любая система распознавания использует электронные изображения документов, как правило, полученные при помощи сканера.
  2. Класс ICR-систем (intelligent character recognition), предназначением которых является обработка документов, заполненных печатными символами и цифрами от руки, то есть, это распознавание рукописей.

В обоих вариантах качественный уровень работы системы распознавания может оцениваться по разным параметрам, но самым важным параметром системы любого вида считается точность распознавания.

Технология распознавания текста: базовые принципы, программы и сервисы

В течение последних лет на мировом рынке предлагаются OCR и ICR-системы, которые построены на основе технологий фирмы ABBYY. На текущий момент они являются хорошо известными и пользующимися постоянным спросом. Например, программное ядро (engine) OCR -системы ABBYY FineReader обладает лицензией и успешно применяется такими популярными корпорациями, как Cardiff Software, Inc., Cobra Technologies, Kofax Image Products, Kurzweil Educational Systems, Inc., Legato Systems, Inc., Notable Solutions Inc., ReadSoft AB, Saperion AG, SER Systems AG, Siemens Nixdorf, Toshiba Corporations.

«Технология распознавания текста: базовые принципы, программы и сервисы» 👇
Помощь эксперта по теме работы
Найти эксперта
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти

Корпорация ABBYY, используя результаты многолетних исследований, смогла реализовать принципы IPA (International Phonetic Alphabet, то есть, международного фонетического алфавита) в компьютерной программе. Система оптического распознавания символов ABBYY FineReader является единственной в мире системой OCR, действующей согласно с описанными выше принципами на каждом этапе обработки документа. Данные принципы обеспечивают программе максимальную гибкость и интеллектуальность, что приближает ее работу к тому, как распознают символы люди.

На начальном этапе распознавания система должна выполнить постраничный анализ изображений, из которых составлен документ, определить структуру страниц, выделить текстовые блоки, таблицы. Помимо этого, современные типы документов могут содержать различные компоненты дизайна, такие как:

  1. Совокупность иллюстраций.
  2. Набор колонтитулов.
  3. Цветной фон или фоновые изображения.

По этой причине мало просто определить и распознать найденный текст, необходимо изначально выяснить устройство обрабатываемого документа, а именно:

  1. Наличие в нем разделов и подразделов.
  2. Наличие ссылок и сносок.
  3. Наличие таблиц и графиков.
  4. Наличие оглавления.
  5. Присутствие нумерации страниц и так далее.

Далее в текстовых блоках следует выделить строки, поделить отдельные строки на слова, а слова поделить на символы. Следует заметить, что выделение символов и процесс их распознания также реализован в форме составных частей общей процедуры. Это предоставляет возможность в полном объеме применять преимущества принципов IPA. Выделенные изображения символов должны поступить на рассмотрение механизмов распознавания букв, именуемых классификаторами.

В системе ABBYY FineReader используются классификаторы следующих типов:

  1. Классификатор растрового типа.
  2. Классификатор признакового типа.
  3. Классификатор контурного типа.
  4. Классификатор структурного типа.
  5. Классификатор дифференциального признакового типа.
  6. Классификатор структурно-дифференциального типа.

Растровый и признаковый классификаторы призваны анализировать изображение и выдвигать ряд гипотез о том, какой именно символ на нем изображен. В процессе анализа каждой гипотезе должна быть присвоена некоторая оценка, именуемая весом. По результатам проверки формируется перечень гипотез, обладающий ранжированием по весам, а именно, по уровню уверенности в том, что распознан как раз данный символ. Иначе говоря, в этот момент система строит догадки, на что больше похож изучаемый символ.

Затем согласно принципам IPA ABBYY FineReader должен провести проверку имеющихся гипотез. Эта процедура осуществляется при помощи дифференциального признакового классификатора. Необходимо заметить, что ABBYY FineReader способен поддерживать сто девяносто два языка распознавания. Объединение системы распознавания со словарным запасом осуществляет помощь программе при анализе документов, то есть, распознавание выполняется более точно и делает проще последующую проверку итоговых результатов с учетом данных об основном языке документа и словарной проверки отдельных предположений. По завершении подробной обработки огромного количества гипотез программа должна принять решение и предоставить пользователю конечный вариант распознанного текста.

Преобразование документа в электронный формат исполняется OCR-системами поэтапно, в следующем порядке:

  1. Этап сканирования и предварительной обработки изображения.
  2. Этап анализа структуры документа.
  3. Этап распознавания.
  4. Этап проверки результатов.
  5. Этап реконструкции (воссоздание исходного вида) документа, и осуществление экспорта.
Дата написания статьи: 02.03.2022
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot